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第 一 部 分 基础 饥 


第 一 章 走 进 MongoDB 


mongoDB 





MongoDB 是 一 个 高 性 能 ， 开 源 ， 无 模式 的 文档 型 数据 库 ， 是 当前 NoSQL 数据 库 产 品 中 最 热 
门 的 一 种 。 它 在 许多 场景 下 可 用 于 蕉 代 传 统 的 关系 型 数据 库 或 刍 / 值 存储 方式 ，MongoDB 使 
用 C++ 开发 。MongoDB 的 官方 网 站 地 址 是 : http://www.mongodb.org/， 读 者 朋友 们 可 以 在 
此 获得 更 详细 的 信息 。 
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1.1 为 什么 要 用 NoSQL 





1.1.1 NoSQL 15r 





NoSQL， 全 称 是 “Not Only Sql” 指 的 是 非 天 系 型 的 数据 库 。 这 类 数据 库 主 要 有 这 些 特点 : JER 
系 型 的 、 分 布 式 的 、 开 源 的 、 水 平 可 扩展 的 。 原 始 的 目的 是 为 了 大 规模 web 应 用 ， 这 场 全 
狐 的 数据 库 间 命运 动 早 期 束 有 人 提出 ， 发 展 人 至 2009 FERRE mike Nosal 的 拥护 者 们 提 
倡 运用 非 天 系 型 的 数据 存储 ， 通 第 的 应 用 如 :; 模式 目 由 、 文 持 简 易 复制 、 人 简单 的 API、 最 终 
I]—3E CIE AcID)、 大 容量 数据 等 。NoSQL 说 我 们 用 得 最 多 的 当 数 key-value 存储 ， 当 然 还 
有 其 他 的 文档 型 的 、 列 存储 、 图 型 数据 库 、xml 数据 库 等 。 相 对 于 目前 铺天盖地 的 关系 型 数 
据 库 运用 ， 这 一 概念 无 疑 是 一 种 全 新 思维 的 注入 。 


























1.1.2 友 展 现状 


现今 的 计算 机 体系 结构 在 数据 存储 方面 要 求 应 用 架构 具备 庞大 的 水 平 扩展 性 ， 而 NoSQL 1E 
在 致力 于 改变 这 一 现状 。 目 前 新 滔 微 博 的 Redis 和 Google 的 Bigtable 以 及 Amazon 的 SimpleDB 
使 用 的 就 是 NoSQL 型 数据 库 。 








NoSQL 项 目的 名 字 上 看 不 出 什么 相同 之 处 , 但是， 它们 通关 在 东 些 方面 相同 : 它们 可 以 处 理 
超大 量 的 数据 。 





这 场 音 命 日 前 仍然 需要 等 每 。NoSQL 对 大 型 企业 来 说 还 不 是 主流 ,但 是 , 一 两 年 之 后 很 可 能 
束 会 变 个 梓 子 。 在 NoSQL 运动 的 最 新 一 次 聚会 中 ， 来 日 世界 各 地 的 150 Agr I CBS 
Interactive 的 一 则 会 议 室 。 分 娃 他 们 如 何 推 翻 缓慢 而 郧 叶 的 关系 数据 库 的 暴政 ， 怎 样 使 用 更 
有 效 和 更 便宜 的 方法 来 管理 数据 。 














天 系 型 数据 库 给 你 强加 了 太 多 东西 .它们 要 你 强行 修改 对 象 数据 , 以 满足 数据 库 系 统 的 需要 。 
在 NoSQL 拥护 者 们 来 看 ， 基 于 NoSQL 的 数据 库 谷 代 方案 “只 是 给 你 所 需要 的 ”。 





1.1.3 为 什么 是 NoSQL 


BEA HX II web2.0 网 站 的 兴起 ， 非 关系 型 的 数据 库 现在 成 了 一 个 极其 热门 的 新 领域 ， 非 关 
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系数 据 库 产品 的 发 展 非常 迅速 ， 而 传统 的 关系 型 数据 库 在 应 付 web2.0 网 站 ， 特 别 是 超大 规 
模 和 高 并 发 的 SNS 类 型 的 web2.0 纯 动 态 网 站 已 经 显得 力不从心 ， 雄 嚣 了 很 多 难以 元 服 的 问 
m, up 

1. High performance - 对 数据 库 高 并 发 读 写 的 需求 

web2.0 网 站 要 根据 用 户 个 性 化 信息 来 实时 生成 动态 页 面 和 提供 动态 信息 ， 所 以 基本 上 无 法 
使 用 动态 页 面 静 态 化 技术 ， 因 此 数据 库 并 发 负载 非常 高 ， 往 往 要 达到 每 秒 上 万 次 谈 写 请 求 。 
关系 型 数据 库 应 付 上 万 次 SQL 得 询 还 揭 强 顶 得 住 ， 但 是 应 付 上 万 次 SQL "SIS OK, TE 
lO 吏 已 经 无 法 承受 了 ， 其 实 对 于 普通 的 BBS 网 站 ， 往 往 也 存在 对 高 并 发 写 请 求 的 需求 。 















































2、Huge Storage - 对 海量 数据 的 高 效率 存储 和 访问 的 需求 
对 于 大 型 的 SNS 网 站 ， 每 天 用 户 产 生 海 量 的 用 户 动 态 信 息 ， 以 国外 的 Friend feed 为 例 ， 一 
^ HAS] f 2.5 亿 条 用 户 动 态 ， 对 于 关系 数据 库 玉 说 ， 在 一 张 2.5 亿 条 记录 的 表 里 面 进行 
SQL 得 询 ， 效 率 是 极其 低下 乃至 不 可 和 仍 受 的 。 再 例如 大 型 web 网 站 的 用 户 登 录 系 统 , 例如 腾 
讯 ， 盛 大 ， 动 辑 数 以 亿 计 的 帐号 ， 关 系数 据 库 也 很 难 应 付 。 























3、High Scalability && High Availability - 对 数据 库 的 高 可 扩展 性 和 高 可 用 性 的 需求 

在 基于 web 的 架构 当中 ， 数 据 库 是 最 难 进行 横 癌 扩展 的 ， 当 一 个 应 用 系统 的 用 户 量 和 访问 
量 与 日 俱 增 的 时 候 , 你 的 数据 库 却 没有 办 法 像 web server 和 app server 那样 简单 的 通过 添加 
更 多 的 硬件 和 服务 节点 来 扩展 性 能 和 负载 能 力 。 对 于 很 多 需要 提供 24 小 时 不 间断 服务 的 网 
站 来 说 ， 对 数据 库 系 统 进行 升级 和 扩展 是 非常 痛苦 的 事情 ， 往 往 需 要 停机 维护 和 数据 迁移 ， 
可 是 停机 维护 随 之 带 来 的 就 是 公司 收入 的 减少 。 





















































在 上 和 面 所 到 的 “三 蜗 ” 需 求 务 前 ， 关 系数 据 库 过 到 了 难以 克服 的 障碍 ， 而 对 于 web2.0 网 站 
来 说 ， 天 系数 据 库 的 很 多 主要 特性 却 往 往 无 用 武之 地 ， 例 如 : 

1、 数 据 库 事 务 一 致 性 需求 

很 多 web 实时 系统 并 不 要 求 严 格 的 数据 库 事务 ， 对 该 一 致 性 的 要 求 很 低 ， 有 些 场合 对 与 一 
致 性 要 求 也 不 局 。 因 此 数据 库 事 务 管 理 成 了 数据 库 遍 负载 下 一 个 沉重 的 负担 。 














2、 数 据 库 的 号 实时 性 和 读 实时 性 需求 
对 关系 数据 库 来 说 ， 插 入 一 条 数据 之 后 立刻 碍 询 ， 是 肯定 可 以 读 出 来 这 条 数据 的 ， 但 是 对 于 
很 多 web 应 用 来 将， 并 不 要 求 这 么 高 的 实时 性 。 





3、 对 复杂 的 SQL 查询 ， 特 别 是 多 表 关 联 碍 询 的 需求 

任何 大 数据 量 的 web 系统 ， 都 非常 忌讳 多 个 大 表 的 关联 得 询 ， 以 及 复杂 的 数据 分 析 关 型 的 
FR SQL RRAN, "espe SNS 关 型 的 网 站 ， 从 需求 以 及 产品 设计 角度 ， 如 避 免 了 这 种 情 
况 的 产生 。 往 往 更 多 的 只 是 单 表 的 主键 查询 ， 以 及 单 表 的 简单 条 件 分 页 查询 ，SQL 的 功能 被 
极 大 的 弱化 了 。 


























因此 ， 关 系数 据 库 在 这 些 越 来 越 多 的 应 用 场景 下 显得 不 那么 合适 了 ， 为 了 解决 这 类 问题 的 
NoSQL 数据 库 应 运 而 生 。 








NoSQL 是 非 天 系 型 数据 存储 的 广义 定义 。 它 打破 了 长 久 以 来 关系 型 数据 库 与 ACID 理论 大 一 
统 的 局 面 。NoSQL 数据 存储 不 需要 国定 的 表 结构 ， 通 常 也 不 存在 连接 操作 。 在 大 数据 存 取 
上 具备 关系 型 数据 库 无 法 比拟 的 性 能 优势 ， 该 概念 在 2009 年 初 得 到 了 广泛 认同 。 
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当今 的 应 用 体系 结构 需要 数据 存储 在 横 癌 伸缩 性 上 能 够 满足 需求 。 而 NoSQL 存储 就 是 为 了 
实现 这 个 需求 。Google 的 BigTable 与 Amazon 的 Dynamo 是 非常 成 功 的 商业 NoSQL 实现 。 

- 些 开源 的 NoSQL 体系 ， 如 Facebook 的 Cassandra, Apache 的 HBase， 也 得 到 了 广泛 认 
同 。 从 这 些 Nosal 项 目的 名 字 上 看 不 出 什么 相同 之 处 : Hadoop, Voldemort. Dynomite, 3^ 
有 其 它 很 多 ， 但 它们 都 有 一 个 共同 的 特点 ， 束 是 要 改变 大 家 对 数据 库 在 传统 意义 上 的 理解 。 




















1.1.4 NoSQL 特点 


1、 它 可 以 处 理 超大 量 的 数据 


2. 它 运行 在 便宜 的 PC 服务 器 集群 上 
PC 集群 扩充 起 来 非常 方便 并 且 成 本 很 低 ， 避 免 了 传统 商业 数据 库 “sharding” 操 作 的 复杂 性 
和 成 本 。 








3. 饭 击 碎 了 性 能 瓶颈 
NoSQL 的 文 持 者 称 , 通过 NoSQL 架构 可 以 省 去 将 Web 或 Java 应 用 和 数据 转换 成 SQL 格式 的 
时 间 ， 执 行 速度 变 得 更 快 。 

“SQL 并 非 适 用 于 所 有 的 程序 代码 ” 对 于 那些 繁重 的 重复 操作 的 数据 ，SQL 值得 花 钱 。 但 
是 当 数 据 库 结构 非常 简单 时 ，SQL 可 能 没有 太 大 用 处 。 

















4、 它 没 有 过 多 的 操作 
虽然 NoSQL 的 文 持 者 也 承认 关系 型 数据 库 担 供 了 无 可 比拟 的 功能 集合 ， 而 且 在 数据 完整 性 
上 也 发 挥 绝对 稳定 ， 他 们 同时 也 表示 ， 企 业 的 具体 需求 可 能 没有 那么 复杂 。 














5、 它 的 支持 者 源 于 社区 
因为 NoSQL 项 目 都 是 开源 的 ， 因 此 它们 缺乏 供应 商 近 供 的 正式 文 持 。 这 一 点 它们 与 大 多 数 
开源 项 目 一 样 ， 不 得 不 从 社区 中 寻求 文 持 。 














NoSQL 发 展 至 今 ， 出 现 了 好 几 种 非 关 系 性 数据 库 ， 本 书 怠 以 Nosal 中 目前 表现 最 好 的 
MongoDB 为 例 来 进行 说 明 。 


1.2 初 识 MongoDB 











MongoDB 是 一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 ， 是 非 关 系数 据 库 当中 功能 最 
丰 曲 ， 最 像 关 系数 据 库 的 。 他 文 持 的 数据 结构 非常 松 做 ， 是 关 似 json 的 bjson 格式 ， 因 此 可 
以 存储 比较 复杂 的 数据 类 型 。MongoDB 最 大 的 特点 十 他 文 持 的 俘 询 语言 非常 强大 ， 其 语法 
有 点 类 似 于 面 癌 对 象 的 得 询 语言 ， 儿 乎 可 以 实现 类 似 关 系数 据 库 单 表 奉 询 的 绝 大 部 分 功能 ， 
而 且 还 支持 对 数据 建立 索引 。 它 是 一 个 面 问 集合 的 ,模式 目 由 的 文档 型 数据 库 。 























1. MAS CCollenction-Orented) 
意思 是 数据 被 分 组 存储 在 数据 集中 ， 被 称 为 一 个 集合 (Collenction)。 每 个 集合 在 数据 库 中 
部 有 一 个 唯一 的 标识 名 ， 并 且 可 以 包含 无 限 数 日 的 文档 。 集 合 的 概念 类 似 关 系 型 数据 库 
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CRDBMS) 里 的 表 (table)， 不 同 的 是 它 不 需要 定义 任何 模式 (schema). 


2. 模式 目 由 (schema-free) 

意味 看 对 于 存储 在 MongoDB 数据 库 中 的 文件 ， 我 们 不 需要 知道 它 的 任何 结构 定义 。 提 了 这 
么 多 次 "无 模式 "或 "模式 目 由 "， 筷 到 是 个 什么 概念 呢 ? 例如 ， 下 面 两 个 记录 可 以 存在 于 同一 
个 集合 里 面 : 

U welcome" : "Beijing"} 

l'age" : 25} 














3、 文档 型 
意思 是 我 们 存储 的 数据 是 键 - 值 对 的 集合 , 键 是 字符 串 , 值 可 以 是 数据 类 型 集合 里 的 任意 类 型 ， 
包括 数组 和 文档 . 我 们 把 这 个 数据 格式 称 作 “BSON” 即 “Binary Serialized dOcument 


Notation.” 























下 面 将 分 别 介 绍 MongoDB 的 特点 、 功 能 和 适用 场合 。 


1.2.1 特点 


Ti pe] ere. LIT Sum 

模式 日 由 

文 持 动 态 但 询 

文 持 完全 索引 ， 包 含 内 部 对 象 

LAH 

文 持 复制 和 故障 恢复 

使 用 高 效 的 二 进 制 数据 存储 ， 包 插 大 型 对 象 〈 如 视频 等 ) 
自动 处 理科 请， 以 文 持 云 计 算 层 次 的 扩展 性 

支持 Python, PHP, Ruby, Java, C. CH, Javascript, Perl 及 C++ 语言 的 驱动 程序 ， 社 区 
中 也 提供 了 对 Erlang 及 .NET 等 平台 的 驱动 程序 

文件 存储 格式 为 BSON 一 种 JSON 的 扩展 ) 

可 通过 网 络 访问 




















1.2.2 功能 


e ESI: 适合 存储 对 象 及 JSON 形式 的 数据 

e 动态 但 询 : MongoDB 文 持 丰 宇 的 得 询 表达 却 。 碍 询 指令 使 用 JSON 形 却 的 标记 ， 可 轻易 
伍 询 文档 中 内 骸 的 对 象 及 数组 

e 完整 的 索引 文 持 : 包括 文档 内 骸 对 象 及 数组 。MongoDB 的 得 询 优化 闫 会 分 析 碍 询 表达 
陈 ， 并 生成 一 个 高 效 的 查询 计划 

e AWKI: MongoDB 包含 一 系列 监视 工具 用 于 分 析 数 据 库 操作 的 性 能 

e 复制 及 目 动 故障 转移 ， MongoDB 数据 库 文 持 服 务 豆 之 间 的 数据 复制 ， 文 持 主 -从 模式 及 
服务 如 之 间 的 相互 复制 。 复 制 的 主要 目标 是 所 供 见 余 及 目 动 故障 转移 

e 局 效 的 传统 存储 方式 : 文 持 二 进 制 数 据 及 大 型 对 象 〈 如 照片 或 图 片 ) 

Har Fr ALEKRI RAE: 目 动 分 片 功能 文 持 水 平 的 数据 库 集群 ,可 动态 添加 额 
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外 的 机 器 
1.2.3 适用 场合 


e 网站 数据 : MongoDB 非常 适合 实时 的 插入 ， 更 狐 与 人 查询， 并 具备 网 站 实时 数据 存储 所 
需 的 复制 及 高 度 伸缩 性 

e ZIT: 由 于 性 能 很 高 ，MongoDB 也 适合 作为 信息 基础 设施 的 绥 存 层 。 在 系统 重 司 之 后 ， 
由 MongoDB 搭建 的 持久 化 缓存 层 可 以 避免 下 层 的 数据 源 过 载 

e ART, 低 价 值 的 数据 : 使 用 传统 的 关系 型 数据 库存 储 一 些 数据 时 可 能 会 比较 昂 贯 ,在 
此 之 前 ， 很 多 时 候 程 序 员 往往 会 选择 传统 的 文件 进行 存储 

e 局 伸缩 性 的 场景 : MongoDB 非常 适合 由 数 十 或 数 百 台 服 务 器 组 成 的 数据 奋 。MongoDB 
的 路 线 图 中 已 经 包含 对 MapReduce 引 敬 的 内 置 支持 

e 用 于 对 象 及 JSON 数据 的 存储 : MongoDB 的 BSON 数据 格式 非常 适合 文档 化 格式 的 存储 
及 查询 


第 二 章 安装 和 配置 


























MongoDB 的 官方 下 载 站 是 http://www.mongodb.org/downloads, 可 以 去 上 面 下 载 最 新 的 安装 
程序 下 来 。 在 下 载 页 面 可 以 看 到 , 它 对 操作 系统 支持 很 全 和 面 , 如 OS X. Linux. Windows, Solaris 
都 文 持 ， 而 且 都 有 各 目的 32 位 和 64 位 版 本 。 目 前 的 稳定 版 本 是 1.8.1 版 本 。 


MongoDB Downloads 














This table lists MongoDB distributions by platform and version. There are also packages available for various package managers. 


OS X 32-bit OS X 64-bit Linux 32-bit Linux 64-bit Windows 32-bit Windows 64-bit Solarisi&epc Solaris 64 Source 


note note note note 


Production Release (Recommended) 


1.8:1 

4Ay2011 download download tgz 
download download download download download download 

Changelog *legacy-static *legacy-static zip 

Release Notes 

Nightly download download tgz 
download download download download download download 

Changelog *legacy-static — *legacy-static zip 


NEA 
YEW: 


1. MongoDB 1.8.1 Linux 版 要 求 glibc 必须 是 2.5 以 上 ， 上 所 以 需要 先 确认 操作 系统 的 glibc 的 版 


本 ， 笔 者 最 初 用 Linux AS 4 安装 不 上 ， 最 后 用 的 是 RHEL5 来 安装 才 成 功 的 。 

2. 在 32 位 平台 MongoDB 不 允许 数据 库 文 件 (累计 总 和 ) 超过 2G6， 而 64 位 平台 没有 这 个 
限制 。 

怎么 安装 MongoDB 数据 库 呢 ? 下 面 将 分 别 介 绍 Windows 和 Linux 版 本 的 安装 方法 
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2.1 Windows 平台 的 安装 


步骤 一 : 下 载 MongoDB 
url 下 载 地 址 : http://downloads.mongodb.org/win32/mongodb-win32-i386-1.8.1.zi 
步骤 二 : ”设置 MongoDB 程序 存放 目录 
将 其 解压 到 c AMEMAN mongo, EN cNmongo 
步骤 三 : 设置 数据 文件 存放 目录 
在 c: 盘 建 一 个 db 文件 夹 ， 路 径 cNdb 
步骤 四 : 局 动 MongoDB 服务 
MEA cmd 提示 符 控制 台 ，c:\mongo\bin\mongod.exe --dbpath=c:\db 
C:\mongo\bin>C:\mongo\bin\mongod --dbpath=c:\db 
Sun Apr 10 22:34:09 [initandlisten] MongoDB starting : pid=5192 port=27017 dbpat 
h=d:\data\db 32-bit 
** NOTE: when using MongoDB 32 bit, you are limited to about 2 gigabytes of data 
see http://blog.mongodb.org/post/137788967/32-bit-limitations 


with --dur, the limit is lower 





Sun Apr 10 22:34:09 [initandlisten] waiting for connections on port 27017 





Sun Apr 10 22:34:09 [websvr] web admin interface listening on port 28017 
MongoDB 服务 问 的 默认 监 昕 问 口 是 27017 
步骤 五 : 将 MongoDB 作为 Windows 服务 随机 启动 
先 创 建 C:\mongo\logs\mongodb.log 文件 ， 用 于 存储 MongoDB 的 日 志文 件 ， 再 安装 系统 
服务 。 
C:\mongo\bin>C:\mongo\bin\mongod --dbpath=c:\ db --logpath=c:\mongo\lo 





gs\mongodb.log --install 
all output going to: c:\mongo\logs\mongodb.log 
Creating service MongoDB. 
Service creation successful. 
Service can be started from the command line via net start "MongoDB". 
C:\mongo\bin>net start mongodb 
Mongo DB 服务 已 经 局 动 成 功 。 
C:\mongo\bin> 
步骤 六 : 客户 端 连 接 验 证 
新 打开 一 个 CMD 输入 : c:\mongo\bin\Imongo， 如 末 出 现下 和 耐 提示 ， 那 么 您 丈 可 以 开始 
MongoDB 之 旅 了 
C:\mongo\bin>c:\mongo\bin\mongo 








MongoDB shell version: 1.8.1 


connecting to: test 


> 
步骤 七 : 查看 MongoDB 日 志 

查看 C:\mongo\logs\mongodb.log 文件 , 即 可 对 MongoDB 的 运行 情况 进行 查看 或 排 错 了 ， 
这 样 束 完成 了 Windows 平台 的 MongoDB 安装 。 
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2.2 Linux 平台 的 安装 


步骤 一 : 下 载 MongoDB 

下 载 安 装 包 : curl -O http://fastdl.mongodb.org/linux/mongodb-linux-i686-1.8.1.tgz 
步骤 二 : 设置 MongoDB 程序 存放 目录 

将 其 解压 到 /Apps， 再 重 命 名 为 mongo， 路 径 为 /Apps/mongo 
步骤 三 : 设置 数据 文件 存放 目录 

建立 /data/db 的 目录 , mkdir -p /data/db 
步骤 四 : JA MongoDB 服务 

/Apps/mongo/bin/mongod --dbpathz/data/db 
[root(2 localhost ~]# /Apps/mongo/bin/mongod --dbpathz/data/db 
Sun Apr 8 22:41:06 [initandlisten] MongoDB starting : pid213701 port-27017 dbpathz/data/db 
32-bit 
** NOTE: when using MongoDB 32 bit, you are limited to about 2 gigabytes of data 

see http://blog.mongodb.org/post/137788967/32-bit-limitations 


with --dur, the limit is lower 





Sun Apr 8 22:41:06 [initandlisten] waiting for connections on port 27017 
Sun Apr 822:41:06 [websvr] web admin interface listening on port 28017 








MongoDB 服务 新 的 默认 连接 端口 是 27017 
步骤 五 : 将 MongoDB 作为 Linux 服务 随机 启动 

先 创建 /Apps/mongo/logs/mongodb.log 文件 ， 用 于 存储 MongoDB 的 日 志文 件 
vi /etc/rc.local, 使 用 vi 编辑 右 打 开 配 置 文件 ， 并 在 其 中 加 入 下 面 一 行 代码 
/Apps/mongo/bin/mongod --dbpathz/data/db --logpathz/Apps/mongo/logs/mongodb.log 
步骤 六 : EP EPIS UE 

新 打开 一 个 Session 输入 : /Apps/mongo/bin/mongo， 如 采 出 现下 和 面 提 示 ， 那 么 您 就 可 以 
开始 MongoDB 之 旅 了 
[root@localhost ~]# /Apps/mongo/bin/mongo 








MongoDB shell version: 1.8.1 
connecting to: test 
> 


步骤 七 : 查看 MongoDB 日 志 
合 看 /Apps/mongo/logs/mongodb.log 文件 ， 即 可 对 MongoDB 的 运行 状况 进行 租 看 或 分 
Wr 
[root(? localhost logs] ll 


iW 0 





-rw-r--r-- 1 root root 0 04-08 20:15 mongodb.log 
[root(? localhost logs]# 

以 上 的 儿 个 步 缀 束 OK 了 !! 这 样 一 个 徐 单 的 MongoDB 数据 库 就 可 以 畅通 无 阻 地 运行 起 
Kie 
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第 三 章 体系 结构 


MongoDB 是 一 个 可 移植 的 数据 库 ， 它 在 流行 的 每 一 个 平台 上 都 可 以 使 用 ， 即 所 谓 的 路 平台 
特性 。 在 不 同 的 操作 系统 上 虽然 略 有 差别 ， 但 是 从 整体 构架 上 来 看 ，MongoDB 在 不 同 的 平 
侣 上 有 是 一 样 的 ， 如 数据 则 辑 结构 和 数据 的 存储 等 等 。 








一 个 运行 看 的 MongoDB 数据 库 束 可 以 看 成 是 一 个 MongoDB Server, 该 Server 由 实例 和 数据 
库 组 成 ， 在 一 般 的 情况 下 一 个 MongoDB Server 机 器 上 包含 一 个 实例 和 多 个 与 之 对 应 的 数据 
库 ， 但 是 在 特殊 情况 下 ， 如 便 件 投入 成 本 有 限 或 特殊 的 应 用 需求 ， 也 允许 一 个 Server 机 器 
上 可 以 有 多 个 实例 和 多 个 数据 库 。 














MongoDB 中 一 系列 物理 文件 (数据 文件 ， 日 志文 件 等 ) 的 集合 或 与 之 对 应 的 逻辑 结构 〈 集 
合 ， 文 档 等 ) 被 称 为 数据 库 ， 便 单 的 说 ， 就 是 数据 库 是 由 一 系列 与 磁盘 有 关系 的 物理 文件 的 
组 成 。 


3.1 数据 逻辑 结构 


很 多 人 在 学 习 MongoDB 体系 结构 的 时 候 会 过 到 各 种 各 样 的 问题 ， 我 在 这 里 给 大 家 人 简单 的 介 
绍 一 下 MongoDB 体系 结构 之 一 的 逻辑 结构 。 MongoDB 的 逻辑 结构 是 一 种 层次 结构 。 主 要 由 : 
文档 (document)、 集 合 (collection)、 数 据 库 (database) 这 三 部 分 组 成 的 。 逻 辑 结构 是 面向 用 户 
的 ， 用 户 使 用 MongoDB 开发 应 用 程序 使 用 的 就 是 逻辑 结构 。 

€ MongoDB 的 文档 (document)， 相 当 于 关系 数据 库 中 的 一 行 记录 。 

e 多 个 文档 组 成 一 个 集合 (collection)， 相 当 于 关系 数据 库 的 表 。 

e 多 个 集合 (collection)， 风 辑 上 组 织 在 一 起 ， 就 是 数据 库 (database). 

e 一 个 MongoDB 实例 文 持 多 个 数据 库 (database)。 

文档 (document)、 集 合 (collection)、 数 据 库 (database) 的 层次 结构 如 下 图 : 
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"d | | M " 
/ 数据 库 1 1 
y database 1 b 
/ \ 
/ ^ 
/ ^ 
| 4 集 会 1 本 | 集 ^ 2 b | 
| / collection 1 / collection 2 | 


Xf 文档 2 wia 


document 1 document 2 document dd 








对 于 习惯 了 关系 型 数据 库 的 朋友 们 ,我 将 MongoDB 与 关系 型 数据 库 的 逻辑 结构 进行 了 对 比 ， 
以 便 让 大 家 更 深刻 的 理解 MongoDB 的 逻辑 结构 
逻辑 结构 对 比 
|MogoB | 关系 型 数据 库 O O OOOO O 
文档 documem — — —  —  — [fito — 
^ 表 ( 


集 人 (colection) Rtabe) 
数据 库 (database) 数据 库 (database) 


3.2 数据 存储 结构 





MongoDB 对 国内 用 户 来 说 比较 新 ,， 它 束 像 是 一 个 黑 盒 子 ， 但 是 如 末 对 于 它 内 部 的 数据 存储 
了 解 多 一 些 的 话 ， 那 么 将 会 很 快 的 理解 和 驾驶 MongoDB， 让 它 发 挥 它 更 大 的 作用 。 


MongoDB 的 默认 数据 目录 是 /data/db, 它 负 员 存储 所 有 的 MongoDB 的 数据 文件 ,在 MongoDB 
内 部 ， 每 个 数据 库 都 包含 一 个 .ns 文件 和 一 些 数据 文件 ， 而 且 这 些 数据 文件 会 随 看 数据 量 的 
增加 而 变 得 越 来 越 多 。 所 以 如 果 系 统 中 有 一 个 叫做 foo 的 数据 库 ， 那 么 构成 foo 这 个 数据 库 
的 文件 就 会 由 foo.ns，foo.0，foo.1，foo.2 等 等 组 成 ， 具 体 如 下 : 
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[root@localhost db]# I| /data/db/ 

总 计 196844 
1 root root 16777216 04-15 16:33 admin.O 
1 root root 33554432 04-15 16:33 admin.1 
1 root root 16777216 04-15 16:33 admin.ns 
1 root root 16777216 04-21 17:30 foo.0 
1 root root 33554432 04-21 17:30 foo.1 
1 root root 67108864 04-21 17:30 foo.2 
1 root root 16777216 04-21 17:30 foo.ns 


-rWxr-xr-x 1 root root 6 04-21 17:16 mongod.lock 
1 root root 16777216 04-15 16:30 test.O 
1 root root 33554432 04-15 16:30 test.1 
1 root root 16777216 04-15 16:30 test.ns 
drwxr-xr-x 2 root root 4096 04-21 17:30 tmp 





MongoDB 内 部 有 预 分 配 衬 间 的 机 制 ， 每 个 预 分 配 的 文件 都 用 0 进行 填充 ， 由 于 有 了 这 个 机 
制 , MongoDB 始终 你 持 失 外 的 空间 和 和 衬 余 的 数据 文件 ,从 而 有 效 避 免 了 由 于 数据 暴 增 而 带 来 
的 磁盘 压力 过 大 的 问题 。 





由 于 表 中 数据 量 的 增加 ， 数 据 文件 每 新 分 配 一 次 ， 它 的 大 小 都 会 是 上 一 个 数据 文件 大 小 的 2 
首 ， 每 个 数据 文件 最 大 26。 这 样 的 机 制 有 利于 防止 较 小 的 数据 库 浪 性 过 多 的 人 磁盘 空间 ， 同 
时 叉 能 保证 较 大 的 数据 库 有 相应 的 预 留 空间 使 用 。 

















数据 库 的 每 张 表 部 对 应 一 个 命名 空间 , 每 个 索引 也 有 对 应 的 命名 空间 。 这 些 命名 空间 的 元 数 
据 都 集中 在 *.ns 文件 中 。 








在 下 图 中 , foo 这 个 数据 库 包 含 3 个 文件 用 于 存储 表 和 索引 数据 , foo.2 文件 属于 预 分 配 的 空 
文件 。foo.0 和 foo.1 这 两 个 数据 文件 家 分 为 了 相应 的 盘 区 对 应 不 同 的 名 学 空间 。 
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00000000000 L1 w— 
00000000000 
00000000000 
00000000000 








Rn] preallocated space 


00000000000 
00000000000 
00000000000 








上 图 显示 了 命名 空间 和 盘 区 的 关系 。 每 个 命名 空间 可 以 包含 多 个 不 同 的 盘 区 , 这 些 盘 区 并 不 
是 连续 的 。 与 数据 文件 的 增长 相同 ,每 一 个 命名 空间 对 应 的 盘 区 大 小 的 也 是 随 着 分 配 的 次 数 
不 断 增长 的 ,这样 做 的 目的 是 为 了 平衡 命名 空间 浪费 的 空间 与 保持 某 一 个 命名 空间 中 数据 的 
连续 性 。 上 图 中 还 有 一 个 需要 注意 的 命名 空间 ，S$freelist， 这 个 命名 空间 用 于 记录 不 再 使 用 
的 盘 区 〈 被 删除 的 Collection 或 索引 )。 每 当 命名 空间 需要 分 配 新 的 盘 区 的 时 候 ， 都 会 先 查 
看 $freelist 是 否 有 大 小 合适 的 盘 区 可 以 使 用 ， 这 样 就 回收 空闲 的 磁盘 空间 。 


第 四 章 快速 入 门 














MongoDB Shell 是 MongoDB H ETAJ HIN Javascript shell, 用 来 对 MongoDB 进行 操作 和 管理 
的 交互 式 环境 。 


使 用 "./mongo --help" 可 和 奉 看 相关 连接 参数 ， 下 面 将 从 和 见 的 操作 ， 如 插入 ， 奉 询 ， 修 改 ， 
删除 等 儿 个 方面 前 述 MongoDB shell 的 用 法 。 


4.1 局 动 数据 库 


MongoDB 安 冯 、 配 置 守 后， 必须 移 司 动 它 ， 然 后 才能 使 用 它 。 怎 么 司 动 它 呢 ? 下 面 分 别 展 
示 了 3 种 方式 来 局 动 实例 。 








4.1.1 命令 行 方 式 启动 


MongoDB 默认 存储 数据 目录 为 /data/db/ (或 者 ci\data\db)， 3R m 27017. EA HTTP Yr 
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口 28017。 当然 你 也 可 以 修改 成 不 同 目录 ,只 需要 指定 dbpath 参数 : /Apps/mongo/bin/mongod 
--dbpath=/data/db 


[root@localhost ~]# /Apps/mongo/bin/mongod --dbpathz/data/db 
Sun Apr 8 22:41:06 [initandlisten] MongoDB starting : pid=13701 port=27017 dbpath=/data/db 


Sun Apr 8 22:41:06 [initandlisten] waiting for connections on port 27017 
Sun Apr 822:41:06 [websvr] web admin interface listening on port 28017 





4.1.2 配置 文件 方式 启动 





如 采 是 一 个 专业 的 DBA, 那么 实例 局 动 时 会 加 很 多 的 参数 以 便 使 系统 运行 的 非常 稳定 ,这样 
就 可 能 会 在 局 动 时 在 mongod 后 面 加 一 长 串 的 参数 ， 看 起 来 非 钊 混乱 而 且 不 好 管理 和 维护 ， 
那么 有 什么 办 法 让 这 些 参数 有 条 理 呢 ? MongoDB 也 支持 同 mysa 一 样 的 读 取 启动 配置 文件 
的 方式 来 启动 数据 库 ， 配 置 文件 的 内 容 如 下 : 

[root@localhost bin]# cat /etc/mongodb.cnf 

dbpath=/data/db/ 








局 动 时 加 上 ”-f” 参 数 ， 并 指 问 配 置 文 件 即 可 

[root@localhost bin]# ./mongod -f /etc/mongodb.cnf 

Mon May 28 18:27:18 [initandlisten] MongoDB starting :  pid-18481  port-27017 
dbpathz/data/db/ 32-bit 


Mon May 28 18:27:18 [initandlisten] waiting for connections on port 27017 
Mon May 28 18:27:18 [websvr] web admin interface listening on port 28017 





4.1.3 Daemon 方式 启动 








大 家 可 以 注意 到 上 面 的 两 种 方式 都 慢 在 前 台 启 动 MongoDB 进程 ， 但 当 启动 MongoDB 进程 
的 session 窗口 不 小 心 关 闭 时 ，MongoDB 进程 也 将 随 之 停止 ， 这 无 疑 是 非常 不 安全 的 ， 斑 好 
MongoDB 提供 了 一 种 后 台 Daemon 方式 局 动 的 选择 ， 只 和 需 加 上 一 个 ”--fork” 参 数 即 可 ， 这 
束 使 我 们 可 以 更 方便 的 操作 数据 库 的 局 动 ， 但 如 果 用 a 到了”--fork” 参 数 束 必须 也 局 用 ” 
--logpath” 参 数 ， 这 是 强制 的 

[root@localhost ~]# /Apps/mongo/bin/mongod --dbpathz/data/db --fork 

--fork has to be used with --logpath 

[root@localhost ~]# /Apps/mongo/bin/mongod --dbpath=/data/db --logpathz/data/log/r3.log 
--fork 











all output going to: /data/log/r3.log 
forked process: 19528 
[root(2 localhost ~]# 
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4.1.4 mongod 参数 说 明 


最 简单 的 ， 通 过 执行 mongod 即 可 以 启动 MongoDB 数据 库 服 务 ，mongod 支持 很 多 的 参数 ， 
但 都 有 默认 值 ， 其 中 最 重要 的 是 需要 指定 数据 文件 路 径 ， 或 者 确保 默认 的 /data/db 存在 并 且 
有 访问 权限 ， 否 则 启动 后 会 自动 关闭 服务 。Ok， 那 也 就 是 说 ， 只 要 确保 dbpath 就 可 以 启动 
MongoDB 服务 了 





mongod 的 主要 参数 有 : 

@ dbpath: 
数据 文件 存放 路 径 ,， 每 个 数据 库 会 在 其 中 创建 一 个 子 目 录 , 用 于 防止 同一 个 实例 多 次 运 
行 的 mongod.lock 也 保存 在 此 目录 中 。 








€  logpath 
BY Has CE 
€  logappend 
音 误 日 六 采用 退 加 模式 〈 默 认 是 复写 模式 ) 
€ bind ip 
对 外 服务 的 绑 定 ip， 一 般 设 置 为 衬 ， 及 绑 定 在 本 机 所 有 可 用 ip 上 ， 如 有 需要 可 以 单独 
指定 
€ port 
对 外 服务 靖 口 。Web Elm HEXA port 的 基础 上 +1000 
€ fork 
以 后 台 Daemon 形式 运行 服务 
@ journal 





开局 日 志 功 能 , 通过 保存 操作 日 志 来 降低 单机 故障 的 恢复 时 间 , 在 1.8 版 本 后 正式 加 入 ， 
取代 在 1.7.5 版 本 中 的 dur 参数 。 
€ syncdelay 
系统 同步 刷新 磁盘 的 时 间 ， 单 位 为 秒 ， 稚 认 是 60 秒 。 
@ directoryperdb 
每 个 db 存放 在 单独 的 目录 中 ， 建 议 设置 该 参数 。 与 MySQL fuz des RIA 
@ maxConns 
最 大 连接 数 
€  repairpath 
执行 repair 时 的 临时 目录 。 在 如 末 没 有 开局 journal, 开 和 down 机 后 重 司 , 必须 执行 repair 
操作 。 








在 源 代 码 中 ，mongod 的 参数 分 为 一 般 参 数 ，windows 参数 ，replication 参数 ，replica set Z 
数 ， 以 及 隐 含 参数 。 上 和 面 列举 的 都 是 一 般 参 数 。 如 果 要 配置 replication, replica set 等 ， 还 需 
要 议 置 对 应 的 参数 ， 这 里 先 不 展开 ， 后 续 会 有 专门 的 章节 来 讲述 。 执 行 mongod --help 可 以 
看 到 对 大 多 数 参 数 的 解释 ， 但 有 一 些 隐 含 参 数 ， 则 只 能 通过 看 代码 来 获得 ( 见 db.cpp 
po::options description hidden_options(“Hidden options”);)， 隐 含 参数 一 般 要 么 是 还 在 开发 
中 ， 要 么 是 准备 废弃 ， 因 此 在 生产 环境 中 不 建议 使 用 。 


























可 能 你 已 经 注意 到 ，mongod 的 参数 中 ,没有 设置 内 存 大 小 相关 的 参数 ， 是 的 ，MongoDB 使 
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用 os mmap 机 制 来 缓存 数据 文件 数据 ， 目 身 目 前 不 提供 缓存 机 制 。 这 样 好 处 是 代码 简单 ， 
mmap 在 数据 量 不 超过 内 存 时 效率 很 咒 。 但 是 数据 量 超过 系统 可 用 内 存 后 ， 则 写 入 的 性 能 5 
能 不 太 称 定 ， 容 易 出 现 大 起 大 落 ， 不 过 在 最 新 的 1.8 版 本 中 ， 这 个 迟 况 相对 以 前 的 版 本 已 经 
有 了 一 定 程 度 的 改善 。 




















这 么 多 参数 ， 全 面 写 在 命令 行 中 则 容易 杂乱 而 不 好 管理 。 因 此 ，mongod 文 持 将 参数 与 入 到 
一 个 配置 文本 文件 中 ， 然 后 通过 config 参数 来 引用 此 配置 文件 : 


./mongod --config /etc/mongo.cnf 


4.2 集 止 数据 库 


MongoDB 提供 的 集 止 数据 库 命令 也 非常 丰富 ， 如 果 Control-C. RIX shutdownServer() 指 令 及 
发 送 Unix 系统 中 断 信 和 号 等 








4.2.1 Control-C 





如 果 处 理 连 接 状态 ， 那 么 直接 可 以 通过 Control-C 的 方式 去 停止 MongoDB 实例 ， 上 有 具体 如 下 : 
[root()localhost ~]# /Apps/mongo/bin/mongo --port 28013 


MongoDB shell version: 1.8.1 
connecting to: 127.0.0.1:28013/test 
> use test 

switched to db test 

> ^C[root(2 localhost ~]# 





4.2.2 shutdownServer() 指 令 


如 果 处 理 连 接 状 态 ， 那 么 直接 可 以 通过 在 admin 库 中 发 送 db.shutdownServer() 指 令 去 停止 
MongoDB 实例 ， 具 体 如 下 : 

[root@localhost ~]#  /Apps/mongo/bin/mongo --port 28013 

MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:28013/test 

» use admin 

switched to db admin 

» db.shutdownServer() 

Thu May 31 23:22:00 DBClientCursor::init call() failed 


Thu May 31 23:22:00 query failed : admin.Scmd ( shutdown: 1.0 } to: 127.0.0.1:28013 

server should be down... 

Thu May 31 23:22:00 trying reconnect to 127.0.0.1:28013 

Thu May 31 23:22:00 reconnect 127.0.0.1:28013 failed couldn't connect to server 
127.0.0.1:28013 

Thu May 31 23:22:00 Error: error doing query: unknown shell/collection.js:150 





> 
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4.2.3 Unix 系统 指令 


在 找到 实例 的 进程 后 ， 可 能 通过 发 送 kill -2 PID 或 kill -15 PID 来 停止 进程 

[root@localhost ~]# ps aux|grep mongod 

root 19269 0.3 1.3 76008 3108 SI 23:24 0:00 /Apps/mongo/bin/mongod --fork 
--port 28013 

[root(2 localhost ~]# kill -2 19269 


Uer er. 
YE: 


不 要 用 kill -9 PID 来 杀 死 MongoDB 进程 ， 这 样 可 以 会 导致 MongoDB 的 数据 损坏 





4.3 连接 数据 库 


现在 我 们 就 可 以 使 用 目 市 的 MongoDB shell 工具 来 操作 数据 库 了 . (我 们 也 可 以 使 用 各 种 编程 
语言 的 驱动 来 使 用 MongoDB, 但 自 带 的 MongoDB shell 工具 可 以 方便 我 们 管理 数据 库 )。 

新 打开 一 个 Session 输入 : /Apps/mongo/bin/mongo， 如 果 出 现下 和 面 提示 ， 那么 您 就 说 明 连 接 
上 数据 库 了 ， 可 以 进行 操作 了 

[root(2 localhost ~]# /Apps/mongo/bin/mongo 














MongoDB shell version: 1.8.1 
connecting to: test 
> 


默认 shell 连接 的 是 本 机 localhost 上 面 的 test 库 ，"connecting to:" 这 个 会 显示 你 正在 使 用 
的 数据 库 的 名 称 . 想 换 数据 库 的 话 可 以 用 ”use mydb” 来 实现 。 








4.4 插入 记录 





下 面 我 们 来 建立 一 个 test 的 集合 并 写 入 一 些 数据 . 建立 两 个 对 象 ] 和 t ， 并 保存 到 集合 中 去 . 

在 例子 里 “>” 来 表示 是 shell 输入 提示 符 

>j={name : "mongo" }; 

{"'name" : "mongo"} 

>t= {x 3. 

{x 

> db.things.save(j); 

> db.things.save(t); 

> db.things.find(); 

LU" id" : Objectld("4c2209f9f3924d31102bd84a"), "name" : "mongo" } 

LU" id" : Objectid("4c2209fef3924d31102bd84b"), "x" : 3] 

> 

有 儿 点 需要 注意 一 下 : 

e 不 需要 预先 创建 一 个 集合 . 在 第 一 次 插入 数据 时 候 会 目 动 创建 . 
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e 在 文档 中 其 实 可 以 存储 任何 结构 的 数据 ， 当 然 在 实际 应 用 我 们 存储 的 还 是 相同 类 型 文 
档 的 集合 . 这 个 特性 其 实 可 以 在 应 用 里 很 灵活 ， 你 不 需要 类 似 alter table 语句 来 修改 你 
的 数据 结构 

e 每 次 插入 数据 时 候 集 合 中 都 会 有 一 个 ID， 名 字 叫 id. 

下 面 册 加 点 数据 : 

> for( var i = 1; i < 10; i++ ) db.things.save( { x:4, j:i ) ); > db.things.find(); 

{"'name" : "mongo" , "_id" : Objectid("497cf60751712cf7758fbdbb")) 

Ux" :3," id" : Objectid("497cf61651712cf7758fbdbc")] 

Ux" :4,"j" : 1," id" : Objectid("497cf87151712cf7758fbdbd")) 

Ux" :4,"j" :2," id" : Objectid("497cf87151712cf7758fbdbe")] 

Ux" :4,"j" :3," id" : Objectid("497cf87151712cf7758fbdbf")) 

Ux" : | :4," id" : Objectid("497cf87151712cf7758fbdcO")) 

oo | :5," id" : Objectid("497cf87151712cf7758fbdc1")) 

Ux' : | :6," id" : Objectid("497cf87151712cf7758fbdc2")) 

b | :7,' id" : Objectid("497cf87151712cf7758fbdc3")) 

Ux' : | :8," id" : Objectid("497cf87151712cf7758fbdc4")) 

请 注意 一 下 ， 这 里 循环 次 数 是 10, 但 是 只 显示 到 第 8 Z, 还 有 2 条 数据 没有 显示 . 如 果 想 继 

续 查 询 下 面 的 数据 只 需要 使 用 "it 命令 ， 就 会 继续 显示 下 面 的 数据 : 

U" id" : Objectlid("4c220a4213924d31102bd866^"), "x" : 4, "j^ : 17] 

U" id" : Objectlid("4c220a42f3924d31102bd867"), "x" : 4, "j^ : 18] 


has more 




















> jt 

{"_id" : Objectld("4c220a42f3924d31102bd868"), "x" : 4, "j" : 19] 

{"_id" : Objectld("4c220a42f3924d31102bd869"), "x" : 4, "j^ : 20} 

从 技术 上 讲 find) 返回 一 个 游标 对 象 . 但 在 上 面 的 例子 里 ,并 没有 拿 到 一 个 游标 的 变量 . 所 











以 shell 目 动 近 历 游标 , 返回 一 个 初始 化 的 set, 并 允许 我 们 继续 用 it XE Td. 
当然 我 们 也 可 以 耳 接 用 游标 来 输出 , 不 过 这 个 是 ”游标 ”部 分 的 内 容 了 . 








4.5 id key 








MongoDB 文 持 有 的 数据 类 型 中 ，_id 是 其 目 有 产物 ， 下 面 对 其 做 至 简单 的 介绍 。 





存储 在 MongoDB 集合 中 的 每 个 文档 (document ) 都 有 一 个 默认 的 主键 id， 这 个 主键 名 称 是 
固定 的 ， 它 可 以 是 MongoDB 文 持 的 任何 数据 闫 型 ， 默 认 是 Objectld。 在 关系 数据 库 schema 
设计 中 ， 主 键 大 多 是 数值 型 的 ， 比 如 常用 的 int 和 long， 并 且 更 通常 的 是 主键 的 取 值 由 数据 
库 目 增 获 得 ， 这 种 主键 数值 的 有 序 性 有 时 也 表明 了 茶 种 惕 和 辑 。 反 观 MongoDB， 它 在 设计 之 
初 束 定位 于 分 布 式 存储 系统 ， 所 以 它 原 生 的 不 支持 目 增 主键 。 






































id key 举例 说 明 : 
当 我 们 在 往 一 个 集合 中 写 入 一 条 文档 时 ， 系 统 会 自动 生成 一 个 名 为 id 的 key. 如 : 


> db.c1.find() 


LU" id" : Objectid(" Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 
LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10 } 
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这 里 多 出 了 一 个 类 型 为 Objectld 的 key ,在 插入 时 并 没有 指定 ， 这 有 点 类 似 Oracle 的 rowid 
的 信息 ， 属 于 上 自动 生成 的 。 


在 MongoDB 中 ， 每 一 个 集合 都 必须 有 一 个 叫做 id 的 字段 ,字段 类 型 默认 是 Objectld , 换 何 话 





说 ， 衬 段 类 型 可 以 不 是 Objectld, 例 如 ; 
> db.c1.find() 
LU" id" : Objectld("4fb5faaf6d0Of9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 


LU" id" : Objectid("4Afb5fab96dO0f9d8ea3fc91a9"), "name" : "Joe", "age" : 10) 
LU" id" :3, "name" : "Bill", "age" : 55 } 








虽然 _id 的 类 型 可 以 目 由 指定 ,但 是 在 同一 个 集合 中 必须 上 唯一， 如 末 插 入 重复 的 值 的 话 ， 系 统 
Tecum. HM P: 

> db.c1.insert((. id:3, name:" Bill new", age:55]) 

E11000 duplicate key error index: test.c1.$ id dup key: (: 3.0] 


> 


因为 前 面 已 经 插入 了 一 条 _id=3 的 记录 ， 所 以 再 插入 相同 的 文档 就 不 允许 了 。 








4.6 查询 记录 


4.6.1 普通 查询 








在 没有 深入 查询 之 前 , 我 们 先 看 看 怎么 从 一 个 查询 中 返回 一 个 游标 对 象 , 可 以 简单 的 通过 
find() KAW, 他 返回 一 个 任 总 结构 的 集合 ,如 果实 现 特定 的 合 询 各 后 讲解 . 
实现 上 面 同样 的 得 询 ， 然 后 通过 while 来 输出 : 
> var cursor = db.things.find(); 
» while (cursor.hasNext()) printjson(cursor.next()); 
LU" id" : Objectid("4c2209f9f3924d31102bd84a"), "name" : "mongo" ] 

: Objectld( 4c2209fef3924d31102bd84b"), "x" : 3] 

: Objectid("4c220a4213924031102bd856"), "x" : 4, "j^ : 1] 

: Objectld("4c220a4213924031102b4857"), "x" : BEANS. 

: Objectld( 4c220a42f3924031102b4858"), "x : 4, "j^ :3] 

: Objectid("4c220a4213924031102bd859"), "x" : 4, "j^ : 4] 

: Objectld( 4c220a42f3924d31102b4852"), "x" :4, "j^ :5] 
上 面 的 例子 显示 了 游标 风格 的 迭代 输出 . hasNext() 函数 告诉 我 们 是 否 还 有 数据 ， 如 果 有 则 
可 以 调用 next() 函数 . 














当 我 们 使 用 的 是 JavaScript shell， 可 以 用 到 JS 的 特性 , forEach 就 可 以 输出 游标 了 .下面 的 例 
子 就 是 使 用 forEach() 来 循环 输出 : forEach() 必须 定义 一 个 函数 供 每 个 游标 元 素 调用 . 

> db.things.find().forEach(printjson); 

LU" id" : Objectld("4c2209f9f3924d31102bd84a"), "name" : "mongo" ] 








( ". id" : Objectld("4c2209fef3924d31102bd84b"), "x" : 3} 
(" id" : Objectld("4c220a42f3924d31102bd856"), "x" : 4, "j" : 1] 
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: Objectld("4c220a42f3924d31102bd857"), "x" : 
: Objectld("4c220a4213924d31102bd858"), "x" : 


: Objectid("4c220a42f3924d31102bd859"), "x" : 
: Objectid("4c220a42f3924031102bd85a"), "x" : 





在 MongoDB shell Œ, 我 们 也 可 以 把 游标 当 作 数组 来 用 : 

> var cursor = db.things.find(); 

> printjson(cursor[4]); 

U" id" : Objectlid("4c220a4213924d31102bd858"), "x" : 4, "j" : 





使 用 游标 时 候 请 注意 占用 内 存 的 问题 , 特别 是 很 大 的 游标 对 象 ， 有 可 能 会 内 存 洲 出 . 所 以 应 
该 用 友 代 的 方式 来 输出 . 下 面 的 示例 则 是 把 游标 转换 成 真实 的 数组 关 型 : 
> var arr = db.things.find().toArray(); 








» arr[5]; 
LU" id" : Objectid("4c220a42f13924d31102bd859"), "x" : 4, "j^ : 4] 














请 注意 这 些 特性 只 是 在 MongoDB shell 里 使 用 , 而 不 是 所 有 的 其 他 应 用 程序 驱动 都 支持 . 
MongoDB 游标 对 象 不 是 没有 快照 ， 如 果 有 其 他 用 户 在 集合 里 第 一 次 或 者 最 后 一 次 调用 
next()， 你 可 能 得 不 到 游标 里 的 数据 . 所 以 要 明确 的 锁定 你 要 查询 的 游标 . 











4.6.2 条 件 查 询 





到 这 里 我 们 已 经 知道 怎么 从 诉 标 里 实现 一 个 租 询 并 返回 数据 对 象 ， 下 面 就 来 看 看 怎么 根据 
指定 的 条 件 来 咎 询 . 

下 面 的 示例 就 是 说 明 如 何 执行 一 个 类 似 SQL WEW, JESUS FUE ATE MongoDB 里 实现 . 这 
是 在 MongoDB shell 里 得 询 ， 当 然 你 也 可 以 用 其 他 的 应 用 程序 张 动 或 者 语言 来 实现 : 
> db.things.find([name:"mongo"]).forEach(printjson); 
LU" id" : Objectid("4c2209f9f3924d31102bd842a"), "name" : "mongo" ] 


SELECT * FROM things WHERE x-4 


> db.things.find(fx:4]).forEach(printjson); 

" id" : Objectid("4c220a4213924d31102bd856^"), "x" : 

: Objectld("4c220a4213924031102b4857"), "x" : 

: Objectld( 4c220a42f3924431102b4858"), "x" : 

: Objectld( 4c220a42f3924d31102b4859"), "x" : 

: Objectld( 4c220a42f3924d31102b4852"), "x" : 

查询 条 件 是 (a:A, b:B, +e } 类 似 “where a--A and b==B and …”. 




















{ 

b 
b 
i 
b 























上 面 显示 的 是 所 有 的 元 素 ， 当 然 我 们 也 可 以 返回 特定 的 元 素 ， 类 似 于 返回 表 里 某 字段 的 值 ， 
只 需要 在 find(bc4)) 里 指定 元 素 的 名 子 


SELECT j FROM things WHERE x=4 





> db.things.find({x:4 {j:true}).forEach(printjson); 
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: Objectld("4c220a4213924d31102bd856"), "j" : 1} 
: Objectld("4c220a4213924d31102bd857"), "j" : 2 } 
: Objectld("4c220a4213924d31102bd858"), "j" : 3 } 
: Objectld("4c220a4213924d31102bd859"), "j" : 41} 
: Objectld("4c220a4213924d31102bd85a"), "j" :5 } 





4.6.3 findOne() 语 法 











^J Y HEZE, MongoDB shell 避免 洲 标 可 能 融 来 的 开销 ， 提 供 一 个 findone() 函数 . IX PR 
数 和 find() 函数 一 样 , 不 过 它 返 回 的 古 游标 里 第 一 条 数据 , 或 者 返回 null, BUS. 





作为 一 个 例子 , name=”mongo” 可 以 用 很 多 方法 来 实现 , 可 以 用 next) 来 循环 游标 或 者 当 
做 数组 返回 第 一 个 元 系 . 











但 是 用 findone() 方法 则 更 简单 和 高 效 : 
> printjson(db.things.findOne((name:"mongo"])); 


LU" id" : Objectld("4c2209f9f3924d31102bd84a"), "name" : "mongo" } 





4.6.4 通过 1limit 限制 结果 集 数 量 





如 采 需 要 限制 结束 集 的 长 度 ， 那么 可 以 调用 dimit 方法 . 

这 是 强烈 推荐 解决 性 能 问题 的 方法 , 束 是 通过 限制 条 数 来 减少 网 络 传输 ,例如 : 
> db.things.find().limit(3); 

LU" id" : Objectld("4c2209f9f3924d31102bd84a"), "name" : "mongo" } 


( " id" : Objectld("4c2209fef3924d31102bd84b"), "x" : 3] 
( " id" : Objectld("4c220a42f3924d31102bd856"), "x" : 4, "j" : 1) 





4.7 修改 记录 





将 name 是 mongo 的 记录 的 name 修改 为 mongo_new 


> db.things.update((name:"mongo"),(S$set:[name:"mongo new"]]); 


我 们 来 租 询 一 下 是 人 否 改过 来 了 
> db.things.find(); 
LU" id" : Objectid("4faa9e7dedd27e64d86486371"), "x" :3] 








LU" id" : Objectid("4faa9e7bedd27e64d864d86370"), "name" : "mongo new" } 


4.8 删除 记录 


将 用 户 name 是 mongo_new 的 记录 从 集合 things 中 删除 
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> db.things.remove((name:"mongo new"]); 
> db.things.find(); 





( "id" : Objectld("4faa9e7dedd27e6d86d86371"), "x" : 3 } 
经 验证 ， 该 记录 确实 被 删除 了 


4.9 常用 工具 集 








MongoDB 在 bin 目录 下 提供 了 一 系列 有 用 的 工具 ， 这 些 工 具 提 供 了 MongoDB 在 运 维 管理 上 
的 方便 。 

bsondump: 将 bson 格式 的 文件 转 储 为 json 格式 的 数据 

mongo: 客户 端 命令 行 工具 ， 其 实 也 是 一 个 js 解释 器 ， 文 持 js 语法 

mongod: 数据 库 服 务 端 ， 每 个 实例 局 动 一 个 进程 ， 可 以 fork 为 后 人 台 运 行 

mongodump/ mongorestore: 数据 库 备 份 和 恢复 工具 

mongoexport/ mongoimport: 数据 导出 和 导入 工具 

mongofiles: GridFS 管理 工具 ， 可 实现 二 制 文件 的 存 取 

mongos: 分 片 路 由 ， 如 果 使 用 了 sharding 功能 ， 则 应 用 程序 连接 的 是 mongos 而 不 是 
mongod 

mongosniff: 这 一 工具 的 作用 类 似 于 tcpdump, 不 同 的 是 他 只 监控 MongoDB 相关 的 包 请 
求 ， 并 且 是 以 指定 的 可 读 性 的 形式 输出 

€  mongostat 实时 性 能 监控 工具 























4.10 PF n GUI 工具 














看 一 个 产品 是 否 得 到 认可 ,可 以 从 一 个 侧面 看 其 第 三 方 工具 的 数量 和 成 熟 程 度 , 下 面 我 们 残 来 
细 数 一 下 MongoDB 常用 的 GUI 管理 工具 。 








4.10.1 MongoVUE 


EW: http://www.mongovue.com/ 
一 个 果 面 程序 ， 提 供 了 对 MongoDB 数据 库 的 基本 操作 ， 如 查看 、 人 查询、 更 新 、 删 除 等 ， 俐 
单 多 用 ， 但 是 功能 还 比较 弱 ， 以 后 发 展 应 该 不 错 。 
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File Sever — Database Collection — Index. — JavaScnpt Teoh — Window Help 
dei Connect By | View C) Find | J Update NR Remove -Map Reduce || | JavaScript 
| Database Explorer 
| [1 E ubuntu 
| &- 9 admin 
EH s lecal 
E-. 3 best 
EB- Collections | Value Type 




















= | 4dJ521fe5416279716dc79 Objectld 
国 -[ 国 Indexes | HHE String 
= Stored JavaScript Dacurnent 
G-E GridFs ddbb578259864b7 ?9bbbcBZeb Objectid 
& usen E String 





[ 10:53:01 ] 
db.test.find().limit(100): 


[ 19:52:50 ] 
db.fo5o.find().limitilO0): 





4.10.2 RockMongo 


XE»: http://code.google.com/p/rock-php/ 


RockMongo 是 一 个 PHP5 写 的 MongoDB 管理 工具 。 
mongodb:// 127.0.0.1:27017 |v] | Tools v | Master 














(B Server QU Databases > [E] game > [7] user achievements 1 
Q Overview 
Query[Array|JSON] | Refresh | Insert | Clear | New Field | Statistics | Export | Import | More » 

E admin 

Ej game (19) array( ESL DESC = 
E go packages 1 (24) ) ASC v 
图 rock versions (1) Emm m 
[7 user achievements 1 (59) ASC v 
[7] user achievements 2 (10) ASC v 
图 user friends 1 (1) 
图 user friends 2 (1) Fields(0) v | Hints(0) v | Limit: 0 | Rows:10 v | Action: findAll v 


E] noer fursiturem koia) Clear Conditions | Cost 0.002696s 


图 user furnitures 2 (1) 
[7] user games 1 (3) 


12 34 56 Next (10/59) 
[7] user grids (1) 





图 user letters 1 (16) 459 : i 
Pj user eetera 2 (2) Update | Delete | New Field | Duplicate | Refresh | Text | Expand 
图 user 1ogs 1 (5) i 
fj user maps (1) " id" : ObjectlId("4c84a09d60a9f£1a0113a0000"), 
ES "achievement id"v : 59, 
[7] user orders (14) 
nx "count" : 0; Query 


国 user props 1 (6) "is awarded" : [Update 


[] user tasks 1 (2) "is finished" : 

Spa Te A Rename 
图 user_visits (2) "category id" : 
fj users (3) "is accepted" ; Remove 


qp Create > } muc m asp Double click to expand 


&j local (3) 








New 
EJ storage (4 
= gei $58 Update | Delete Ii licate | Refresh | Text | Expand 
& test (3) Indexes 
{ — — mx 
" id" : ObjectId Hide 1a011390000"), 


"achievement id" 
"count" : O0, 
"is awarded" : 0. 


主要 特征 : 

使 用 宽松 的 New BSD License 协议 

速度 快 ， 安 装 简单 

文 持 多 语言 〈 目 前 提供 中 文 、 英 文 、 日 文 、 巴 西 葡 萄 牙 语 、 法 语 、 德 语 ) 
系统 可 以 配置 多 个 主机 ， 每 个 主机 可 以 有 多 个 管理 员 ， 需 要 管理 员 密 人 码 才 能 登入 操作 ， 确 保 
数据 库 的 安全 性 
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服务 器 信息 (WEB 服务 器 , PHP, PHPini 相关 指令 ...) 状 态 
数据 查询 ， 创 建 和 删除 
执行 命令 和 Javascript 代码 


4.10.3 MongoHub 


EW: https://github.com/bububa/MongoHub 
MongoHub 是 一 个 针对 Mac 平台 的 MongoDB 图 形 管理 客户 端 ， 可 用 来 管理 MongoDB 数据 
的 应 用 程序 。 








localhost [localhost:2 7017] 


Wem CES $ Lgs 
Server Status Database stats Collection Stats Query Support 
DATABASES Database airport stats 
B admin Name Value Type 
i amport collections 7 Int 
B local dataSize 2176927664.000000 Double 
ned | 3196016256.000000 Doubl 
AIRPORT indexSize 5 ouble 
cm feed indexes 11 Int 
42 Int 
Cm system.indexes numExtents : 
jer 74652664 Int 
Cm feedentry objects 
ok 1.000000 Double 
CD server ! 
| | storageSize 2750820096.000000 Double 
Qu system.users ! 
Qo seokeyword 
Co dlog 
+- f 


第 二 部 分 NJ 


本 草 将 结合 实际 应 用 ， 重 点 阐述 一 些 实际 工作 中 最 第 用 的 方法 。 





第 五 章 AKAH 


面 癌 文档 的 NoSQL 数据 库 主 要 解决 的 问题 不 是 高 性 能 的 并 发 谈 写 ， 而 是 保证 海量 数据 存储 
的 同时 ， 具 有 民 好 的 得 询 性 能 。 





























MongoDB 最 大 的 特点 是 他 文 持 的 得 询 语言 非常 强大 ， 其 语法 有 氮 闫 似 于 和 面 辣 对 象 的 查询 语 
言 ， 几 乎 可 以 实现 类似 关系 数据 库 单 表 碍 询 的 绝 大 部 分 功能 ， 而 且 还 文 持 对 数据 建立 索引 。 
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最 后 由 于 MongoDB 可 以 文 持 复杂 的 数据 结构 ， 而 且 禹 有 强大 的 数据 但 询 功 能 ， 因 此 非常 受 
到 欢迎 ， 很 多 项 目 痢 考虑 用 MongoDB RER MySQL 等 传统 数据 库 来 实现 不 是 特别 复杂 的 
Web 应 用 。 由 于 数据 量 实在 太 大 ， 上 所 以 迁移 到 了 MongoDB 上 和 耐 ， 数 据 但 询 的 速度 得 到 了 非 
T xp JEJE. 

















下 面 将 介绍 一 些 高 级 查询 语法 
5.1 条 件 操 作 符 


5.1 条 件 操作 符 








<, <=, >, >= 这 个 操作 符 束 不 用 多 解释 了 ， 最 常用 也 是 最 简单 的 
db.collection.find(( "field" : ($gt: value } } ); // XT: field > value 
db.collection.find(( "field" : { Slt: value 33);  // 小 于 : field < value 
db.collection.find(( "field" : { Sgte: value } } );，// 大 于 等 于 : field >= value 
db.collection.find({ "field" : { $lte: value } }); // 小 于 等 于 : field <= value 





如 果 要 同时 满足 多 个 条 件 ， 可 以 这 样 做 
db.collection.find(( "field" : { Sgt: value1 Slt: value2 } } ); // value1 « field « value 


5.2 $all 匹配 所 有 








这 个 操作 符 跟 SQL 语法 的 in 类 似 ， 但 不 同 的 是 , in 只 需 满足 ( ) 内 的 某 一 个 值 即 可 ， 而 5$all 必 
须 满 足 [ ] 内 的 所 有 值 ， 例 如 : 

db.users.find({age : (Sall : [6, 8]}}); 

可 以 查询 出 “”{name:'David', age: 26, age: [ 6, 8,9]} 

但 查询 不 出 ”{name: 'David', age: 26, age: [6,7,9]} 





5.3 $exists 判断 字段 是 否 存在 








查询 所 有 存在 age 字段 的 记录 
db.users.find((age: (Sexists: true]]); 
查询 所 有 不 存在 name 字段 的 记录 
db.users.find((name: (Sexists: false]]); 
举例 如 下 : 

C1 表 的 数据 如 下 : 

> db.c1.find(); 





LU" id" : Objectid("4fb4a773afa87dc1bed9432d"), "age" : 20, "length" : 30 } 
LU" id" : Objectid("4fb4a7e1afa87dc1bed9432e"), "age 1" :20, "length 1":30] 
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查询 存在 字段 age 的 数据 
> db.c1.find(fage:(Sexists:true)]); 





LU" id" : Objectid("4fb4a773afa87dc1bed9432d"), "age" : 20, "length" : 30 } 
可 以 看 出 只 显示 出 了 有 age 字段 的 数据 ，age_1 的 数据 并 没有 显示 出 来 





5.4 Null 值 处 理 





Null 值 的 处 理 稍 微 有 一 点 奇怪 ， 有 共 体 看 下 面 的 样 例 数 据 : 

> db.c2.find() 

LU" id" : Objectid("4fc34bb81d8a39f01cc17ef4"), "name" : "Lily", "age" : null } 

LU" id" : Objectid("4fc34be01d8a39f01cc17ef5"), "name" : "Jacky", "age" : 23] 

LU" id" : Objectlid("4fc34c1e1d8a39f01cc17ef6"), "name" : "Tom", "addr" : 23] 

其 中 ”Lily” 的 age FRNT, Tom 没有 age 字段 ， 我 们 想 找到 age 为 空 的 行 ， 其 体 如 下 : 

> db.c2 .find({age:null}) 

LU" id" : Objectid("4fc34bb81d8a39fO01cc17ef4"), "name" : "Lily", "age" : null } 

LU" id" : Objectid("4fc34c1e1d8a39fO01cc17ef6"), "name" : "Tom", "addr" : 23] 

*j PETI Xd] E72 R AEREI Lily", fH"Tom"18 4 3E HoK T, PrEA" null" REREN EAH, 
连 不 存在 age 字段 的 记录 也 拷 出 来 了 。 那 么 怎么 样 才能 只 找到 “Lily“ 呢 ?我 们 用 exists 来 限制 
— FBluJ: 


> db.c2.find(fage:("Sin":[null], "Sexists":true]]) 








LU" id" : Objectid("4fc34bb81d8a39f01cc17ef4"), "name" : "Lily", "age" : null } 


这 样 如 我 们 期 望 一 梓 ， 只 有 ”Lily” 被 找 出 来 了 。 





5.5 $mod 取 模 运算 


查询 age 取 模 10 等 于 0 的 数据 

db.student.find( ( age: ($mod :[10,1])]) 

举例 如 下 : 

C1 表 的 数据 如 下 : 

> db.c1.find() 

LU" id" : Objectld("4fb4af85afa87dclbed94330"), "age" :7, "length 1":30) 


LU" id" : Objectid(" Afb4af89afa87dc1bed94331"), "age" : 8, "length 1":30) 
LU" id" : Objectid(" Afb4af8cafa87dc1bed94332"), "age" :6, "length 1":30] 





查询 age 取 模 6 等 于 1 的 数据 
> db.cl.find({age: Smod:[6,1]]]) 





LU" id" : Objectid(" Afb4af85afa87dc1bed94330"), "age" : 7, "length 1":30)] 
可 以 看 出 只 显示 出 了 age 取 模 6 等 于 1 的 数据 ， 其 它 不 符合 规则 的 数据 并 没有 显示 出 来 
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5.6 $ne 不 等 于 





AW x 的 值 不 等 于 3 的 数据 
db.things.find( (x : ($ne:3]] ); 
举例 如 下 : 

C1 表 的 数据 如 下 : 


> db.c1.find() 
LU" id" : Objectid(" 4fb4af85afa87dc1bed94330"), "age" : 7, "length 1":30] 


LU" id" : Objectid(" Afb4af89afa87dc1bed94331"), "age" : 8, "length 1":30] 
LU" id" : Objectid(" 4fb4af8cafa87dc1bed94332"), "age" :6, "length 1":30] 





AW age 的 值 不 等 于 7 的 数据 
> db.c1.find( { age : ($ne:7]]J; 


LU" id" : Objectid(" Afb4af89afa87dc1bed94331"), "age" : 8, "length 1":30] 
LU" id" : Objectid(" Afb4af8cafa87dc1bed94332"), "age" :6, "length 1":30] 
可 以 看 出 只 显示 出 了 age SET 7 的 数据 ， 其 它 不 符合 规则 的 数据 并 没有 显示 出 来 








5.7 $in 包含 








与 sal 标准 语法 的 用 途 是 一 样 的 ， 即 要 奉 询 的 是 一 系列 枚 举 值 的 范围 内 





查询 x 的 值 在 2,4,6 范围 内 的 数据 

db.things.find((x:(Sin: [2,4,6])]); 

举例 如 下 : 

C1 表 的 数据 如 下 : 

> db.c1.find() 

LU" id" : Objectld("4fb4af85afa87dclbed94330"), "age" :7, "length 1" 


LU" id" : Objectid(" Afb4af89afa87dc1bed94331"), "age" : 8, "length 1" 
LU" id" : Objectid(" Afb4af8cafa87dc1bed94332"), "age" : 6, "length 1" 








查询 age 的 值 在 7,8 范围 内 的 数据 
> db.c1.find({age:{Sin: [7,8]}}); 


LU" id" : Objectld("4fb4af85afa87dclbed94330"), "age" :7, "length 1" 
LU" id" : Objectid(" 4fb4af89afa87dc1bed94331"), "age" : 8, "length 1" 
可 以 看 出 只 显示 出 了 age 等 于 7 或 8 的 数据 ， 其 它 不 符合 规则 的 数据 并 没有 显示 出 来 








5.8 $nin 不 包含 





与 sql 标准 语法 的 用 途 是 一 样 的 ， 即 要 但 询 的 数据 在 一 系列 枚 举 值 的 范围 外 
查询 x 的 值 在 2,4,6 范围 外 的 数据 

db.things.find((x:(Snin: [2,4,6]}}); 

举例 如 下 : 
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C1 表 的 数据 如 下 : 
> db.c1.find() 
LU" id" : Objectld("4fb4af85afa87dclbed94330"), "age" :7, "length 1":30) 


LU" id" : Objectid(" Afb4af89afa87dc1bed94331"), "age" : 8, "length 1":30) 
LU" id" : Objectid("Afb4af8cafa87dc1bed94332"), "age" : 6, "length 1":30] 





查询 age 的 值 在 7,8 范围 外 的 数据 
> db.c1.find({age:{Snin: [7,8]]]); 


LU" id" : Objectld("4fb4af8cafa87dclbed94332"), "age" :6, "length 1":30} 
可 以 看 出 只 显示 出 了 age 不 等 于 7 或 8 的 数据 ， 其 它 不 符合 规则 的 数据 并 没有 显示 出 来 








5.9 $size 数组 元 素 个 数 


XJ-T (name: 'David', age: 26, favorite number: [ 6, 7, 9] pux 

匹配 db.users.find([favorite number: (Ssize: 3}}); 

不 匹配 db.users.find((favorite number: (S$size: 2)]); 

举例 如 下 : 

C1 表 的 数据 如 下 : 

> db.c1.find() 

LU" id" : Objectld("4fb4af85afa87dclbed94330"), "age" :7, "length 1":30) 


LU" id" : Objectid(" Afb4af89afa87dc1bed94331"), "age" : 8, "length 1":30) 
LU" id" : Objectid("Afb4af8cafa87dc1bed94332"), "age" :6, "length 1":30] 





查询 age 的 值 在 7,8 范围 外 的 数据 
> db.c1.find(fage:(Snin: [7,8]]]); 





LU" id" : Objectid("Afb4af8cafa87dc1bed94332"), "age" :6, "length 1":30] 
可 以 看 出 只 显示 出 了 age 不 等 于 7 或 8 的 数据 ， 其 它 不 符合 规则 的 数据 并 没有 显示 出 来 





5.10 正则 表达 式 匹 配 


查询 不 匹配 name=B* 带 头 的 记录 
db.users.find((name: (Snot: /^B.*/}}); 
举例 如 下 : 

C1 表 的 数据 如 下 : 

> db.c1.find(); 


LU" id" : Objectid("Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 
LU" id" : Objectid("4fb5fab96dO0f9d8ea3fc91a9"), "name" : "Joe", "age" : 10) 





查询 name 不 以 T 开 头 的 数据 
> db.c1.find((name: (Snot: /^T.*/}}); 





LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10 } 
可 以 看 出 上 只 显示 出 了 namezTony 的 数据 ， 其 它 不 符合 规则 的 数据 并 没有 显示 出 来 
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5.11 Javascript 查询 和 $where 查询 


fria 大 于 3 的 数据 ， 下 和 面 的 合 询 方法 殊途同归 
€ db.clfind({a:{Set:3}}); 

€  db.c1.find( ( Swhere: "this.a > 3" ] ); 

€  db.c1.find("this.a > 3"); 

@ f=function() { return this.a > 3; ) db.c1.find(f); 


5.12 count 查询 记录 条 数 





count 查询 记录 条 数 

db.users.find().count(); 

以 下 返回 的 不 是 5， 而 是 user 表 中 所 有 的 记录 数量 
db.users.find().skip(10).limit(5b).count(); 

如 果 要 返回 限制 之 后 的 记录 数量 ， 要 使 用 count(true) EX zr count( 非 0) 
db.users.find().skip(10).limit(5).count(true); 

举例 如 下 : 

C1 表 的 数据 如 下 : 

> db.c1.find() 











LU" id" : Objectid(" Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 
LU" id" : Objectid("4Afb5fab96dO0f9d8ea3fc91a9"), "name" : "Joe", "age" : 10) 





查询 cl 表 的 数据 量 
> db.c1.count() 


IM 


可 以 看 出 表 中 共有 2 条 数据 


5.13 skip 限制 返回 记录 的 起 点 


从 第 3 条 记录 开始 ， 返 回 5 条 记录 (limit 3, 5) 
db.users.find().skip(3).limit(5); 

举例 如 下 : 

C1 EIS P: 

> db.c1.find() 


LU" id" : Objectid(" Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 
LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10] 





AW cl 表 的 第 2 条 数据 
> db.c1 .find().skip(1).limit(1) 





LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10 } 
可 以 看 出 表 中 第 2 条 数据 被 显示 了 出 来 
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5.14 sort 排序 


以 年 龄 升序 asc 
db.users.find().sort((age: 1]); 
以 年 龄 降序 desc 
db.users.find().sort((age: -1]); 
C1 表 的 数据 如 下 : 

> db.c1.find() 


LU" id" : Objectid(" Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 
LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10] 





查询 c1 表 按 age 升序 排列 
> db.c1.find().sort((age: 1]); 
LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10 } 
LU" id" : Objectid(" Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 


"B 1 条 是 age=10 的 ， 而 后 升序 排列 结果 集 





查询 c1 表 按 age 降序 排列 
> db.c1.find().sort((age: -1]); 
LU" id" : Objectid(" Afb5faafedOf9d8ea3fc91a8"), "name" : "Tony", "age" : 20] 
LU" id" : Objectid("4Afb5fab96dOf9d8ea3fc91a9"), "name" : "Joe", "age" : 10] 


第 1 条 是 age=20 的 ， 而 后 降序 排列 结果 集 
5.2 游标 


象 大 多 数 数据 库 产品 一 样 ，MongoDB 也 古 用 游标 来 循环 处 理 每 一 条 结 末 数据 ， 上 其 体 语 法 如 





> for( var c = db.t3.find(); c.hasNext(); ) { 
printjson( c.next()); 


: Objectld("4fb8e4838b2cb86417c94232"), "age" :1] 
: Objectld("4fb8e4878b2cb86417c9423b"), "age" : 2] 
: Objectld("4fb8e4898b2cb86417c9423c"), "age" : 3] 
: Objectld(" 4fb8e48c8b2cb86417c9423d"), "age" : 4] 


: Objectld(" 4fb8e48e8b2cb86417c9423e"), "age": 5] 


> db.t3.find().forEach( function(u) { printjson(u); ) ); 

LU" id" : Objectid("4fb8e4838b2cb86417c9423a"), "age" : 1] 
: Objectld("4fb8e4878b2cb86417c9423b"), "age" : 2] 
: Objectld("4fb8e4898b2cb86417c9423c"), "age" : 3] 
: Objectld(" 4fb8e48c8b2cb86417c9423d"), "age" : 4] 
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LU" id" : Objectid("4fb8e48e8b2cb86417c9423e"), "age" : 5] 
> 


5.3 存储 过 程 





MongoDB 为 很 多 问题 提供 了 一 系列 的 解决 方案 ， 针 对 于 其 它 数据 库 的 特性 ， 它 仍然 坚 不 示 
JJ, KIJI ESE o 

















MongoDB 同样 支持 存储 过 程 。 关 于 存储 过 程 你 需要 知道 的 第 一 件 事 就 是 它 是 用 javascript 来 
写 的 。 也 许 这 会 让 你 很 奇怪 ， 为 什么 它 用 javascript 来 瑟 ， 但 实际 上 它 会 让 你 非常 满意 ， 
MongoDB 存储 过 程 是 存储 在 db.system.js 表 中 的 , 我 们 想象 一 个 简单 的 sql 目 定义 函数 如 下 : 


function addNumbers( x , y )( 


return x * y; 





下 面 我 们 将 这 个 sql 目 定义 函数 转换 为 MongoDB 的 存储 过 程 : 


> db.system.js.save({_id:"addNumbers", value:function(x, y) return x + y; HJ; 








存储 过 程 可 以 被 得 看 ， 修 改 和 删除 ， 所 以 我 们 用 find KEA — Poe dx EROS GERNE 
创建 上 了 。 

> db.system.js.find() 

LU" id" : "addNumbers", "value" : function cf 1 f (xy){ 


return x * y; 


;] 


> 








这 样 看 起 来 还 不 错 ， 下 面 我 看 来 实际 调用 一 下 这 个 存储 过 程 : 
> db.eval('addNumbers(3, 4.2)); 
7.2 


> 


这 样 的 操作 方法 简直 太 人 简单 了 ， 也 许 这 束 是 MongoDB 的 魅力 所 在 。 

















db.eval() 是 一 个 比较 奇怪 的 东西 ， 我 们 可 以 将 存储 过 程 的 逻辑 直接 在 里 面 并 同时 调用 ， 而 无 
需 事先 声明 存储 过 程 的 逻辑 。 

> db.eval( function() ( return 343; } ); 

6 

> 























从 上 面 可 以 看 出 ，MongoDB 的 存储 过 程 可 以 方便 的 完成 算术 运算 ， 但 其 它 数 据 库 产 品 在 存 
储 过 程 中 可 以 处 理 数据 库 内 部 的 一 些 事情 ， 例 如 取出 东 张 表 的 数据 量 等 等 操作 ， 这 些 
MongoDB 能 做 到 吗 ? 答案 是 肯定 的 ，MongoDB 可 以 轻而易举 的 做 到 ， 看 下 面 的 实例 吧 : 


> db.system.js.savel({_id:"get count", value:function(){ return db.c1.count(); }}); 











> db.eval('get count()') 
2 
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可 以 看 到 存储 过 程 可 以 很 轻松 的 在 存储 过 程 中 操作 表 


第 六 章 Capped Collection 


6.1 简单 介绍 











capped collections 是 性 能 出 色 的 有 看 国定 大 小 的 集合 ， 以 LRU(Least Recently Used 最 近 最 少 
使 用 ) 规 则 和 插入 顺序 进行 age-out( 老 化 移出 ) 处 理 ， 目 动 维护 集合 中 对 象 的 插入 顺序 ， 在 创 
建 时 要 预先 指定 大 小 。 如 果 衬 间 用 完 ， 痢 添加 的 对 象 将 会 取代 集合 中 最 旧 的 对 象 。 














6.2 功能 特点 


可 以 插入 及 更 新 ， 但 更 新 不 能 超出 collection 的 大 小 ， 人 否则 更 新 失败 。 不 允许 删除 ， 但 是 可 
以 调用 drop) 删除 集合 中 的 所 有 行 ， 但 是 drop 后 需要 显 式 地 重建 集合 。 在 32 位 机 上 ， 一 
个 capped collection 的 最 大 值 约 为 482.5M，64 位 上 只 受 系统 文件 大 小 的 限制 。 





6.3 %5 ILH Ab 


1. logging 
MongoDB HH? Hs pL) EXE, MongoDB 没有 使 用 日 六 文件， 而 是 把 日 六 事件 存储 在 数 
据 库 中 。 在 一 个 没有 索引 的 capped collection 中 搬入 对 象 的 速度 与 在 文件 系统 中 记录 日 











志 的 速度 相当 。 
2、 cache 


缓存 一 些 对 象 在 数据 库 中 ， 比 如 计算 出 来 的 统计 信息 。 这 样 的 需要 在 collection 上 建立 
一 个 索引 ， 因 为 使 用 绥 存 往往 是 读 比 写 多 。 
3、 auto archiving 


可 以 利用 capped collection 的 age-out 特性 ， 省 去 了 写 cron 脚本 进行 人 工 归 档 的 工作 。 


6.4 推荐 用 法 


1. 为 了 发 挥 capped collection 的 最 大 性 能 ， 如 末 写 比 读 多 ， 最 好 不 要 在 上 和 耐 建 案 引 ， 奋 则 
插入 速度 从 "log speed" 降 为 "database speed". 

















2、 使 用 "nature ordering" 可 以 有 效 地 检索 最 近 插 入 的 元 素 ， 因 为 capped collection 能 够 保证 
目 然 排 序 束 是 插入 时 的 顺序 ， 类 似 于 log 文件 上 的 tail 操作 。 





6.5 注意 事项 


1、 可 以 在 创建 capped collection 时 指定 collection 中 能 够 存放 的 最 大 文档 数 。 但 这 时 也 要 指 
XE size， 因 为 总 是 先 检 查 size 后 检查 maxRowNumber。 可 以 使 用 validate() 查 看 一 个 collection 
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已 经 使 用 了 多 少 容 间 ， 从 而 决定 size 设 为 多 大 。 如 : 
db.createCollection("mycoll", {capped:true, size:100000, max:100]); 
db.mycoll.validate(); 

max-1 时 会 往 collection 中 存放 尽量 多 的 documents. 


2. EXKI createCollection 图 数 也 可 以 用 来 创建 一 般 的 collection， 还 有 一 个 参数 
"autolndexID"， 值 可 以 为 "true" 和 "false" 来 决定 是 否 需 要 在 "_ id" 字段 上 自动 创建 索引 ， 如 : 
db.createCollection("mycoll", (size:10000000, autolndexld:false]) . 

默认 情况 下 对 一 般 的 collection 是 创建 索引 的 ， 但 不 会 对 capped collection 创建 。 


第 七 章 GridFS 











GridFS 是 一 种 将 大 型 文件 存储 在 MongoDB 数据 库 中 的 文件 规范 。 所 有 官方 文 持 的 驱动 均 实 
Bf GridFS 规范 。 


7.1 为 什么 要 用 GridFs 


由 于 MongoDB 中 BSON 对 象 大 小 是 有 限制 的 ， 所 以 GridFS 规范 提供 了 一 种 透明 的 机 制 ， 可 
以 将 一 个 大 文件 分 割 成 为 多 个 较 小 的 文档 ,这样 的 机 制 允 许 我 们 有 效 的 保存 大 文件 对 象 , 特 
别 对 于 那些 巨大 的 文件 ， 比 如 视频 、 高 清 图 片 等 。 


7.2 如 何 实现 海量 存储 
为 实现 这 点 ， 该 规范 指定 了 一 个 将 文件 分 块 的 标准 。 每 个 文件 都 将 在 文件 集合 对 象 中 保存 一 
个 元 数据 对 象 ， 一 个 或 多 个 chunk 块 对 象 可 被 组 合 保存 在 一 个 chunk 块 集合 中 。 大 多 数 情况 


下 ， 你 无 需 了 解 此 规范 中 细节 有， 而 可 将 注意 力 放 在 各 个 语言 版 本 的 张 动 中 有 关 GridFS API 的 
部 分 或 是 如 何 使 用 mongofiles 工具 上 。 


7.3 语言 文 持 


























GridFS 对 Java, Perl, PHP, Python, Ruby 等 程序 语言 均 支 持 ， 且 提供 了 良好 的 APl 接口 。 


7.4 简单 介绍 


GridFS 使 用 两 个 表 来 存储 数据 : 

e files 包含 元 数据 对 象 

€ chunks 包含 其 他 一 些 相 关 信 息 的 二 进 制 块 

为 了 使 多 个 GridFS 命名 为 一 个 早 一 的 数据 库 ， 文 件 和 块 都 有 一 个 前 级 ， 上 默认 情况 下 ， 前 级 
是 f， 上 所 以 任何 默认 的 GridFS 存储 将 包括 命名 空间 fs.files 和 fs.chunks。 各 种 第 三 方 语言 的 
驱动 有 权限 改变 这 个 前 级 ， 所 以 你 可 以 尝试 设置 太一 个 GridFSs 命名 空间 用 于 存储 照搬 ， 它 
的 具体 位 置 为 :photos.files 和 photos.chunks。 下 面 我 们 看 一 下 实际 的 例子 吧 。 
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7.5 命令 行 工 具 


mongofiles 是 从 命令 行 操作 GridFS 的 一 种 工具 ， 例 如 我 们 将 ”mongosniff” 这 个 文件 存 到 库 里 
面 ， 其 体 用 法 如 下 : 
[root@localhost bin]# ./mongofiles put testfile 


connected to: 127.0.0.1 

added file: (.. id: Objectid('4fc60175c714c5d960fff76a'), filename: "testfile", chunkSize: 262144, 
uploadDate: new Date(1338376565745), md5: "8addbeb77789ae6b2cb75deee30faf1a", length: 
16} 

done! 








下 面 我 们 碍 一 下 看 库 里 有 哪些 GridFS 文件 ， 在 ”mongofiles” 后 加 一 个 参数 "list” 即 可 
[root(2 localhost bin]& ./mongofiles list 

connected to: 127.0.0.1 

testfile 16 








接 下 来 我 们 进 库 里 看 一 下 是 否 有 新 的 东西 
[root(2 localhost bin]# ./mongo 








MongoDB shell version: 1.8.1 

connecting to: test 

» show collections 

fs.chunks -- 上 文 提 到 的 fs.chunks 
fs.files -上 文 提 到 的 fs.files 
system.indexes 


system.js 





2 


我 们 继续 查看 fs.files 中 的 内 容 
> db.fs.files.find() 
|" id" : Objectld("4fc60175c714c5d960fff76a"), "filename" : "testfile", "chunkSize" : 262144, 


"uploadDate" ISODate("2012-05-30T11:16:05.745Z"), "md5" 


"8addbeb77789ae6b2cb75deee30faf1a", "length" : 16] 
字段 说 明 : 

€ Filename: 存储 的 文件 名 

€  chunkSize: chunks 分 块 的 大 小 

€  uploadDate: 入 库 时 间 
e 
e 





md5: 此 文件 的 md5 14 
length: 文件 大 小 ， fuz" eun 
看 来 fs.files 中 存储 的 是 一 些 基 础 的 元 数据 信息 


我 们 继续 查看 fs. chunks 中 的 内 容 
> db.fs.chunks.find() 


{ " id" Objectld("4fc60175cf1154905d949336"), "files id" 
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Objectld( 4fc60175c714c5d960fff76a 


BinData(O," SGVyZSBpcyBCZWlqaW5nCg--") } 
其 中 比较 重要 的 字段 是 ”n”， 它 代表 的 是 chunks 的 序号 ， 此 序号 从 0 开始 , AXR fs. chunks 
中 存储 的 是 一 坚实 际 的 内 容 数据 信息 











我 们 即 然 能 将 此 文件 存 进 去 ， 我 们 束 应 该 有 办 法 将 其 取出 来 ， 下 面 看 一 下 实例 : 
[root(2 localhost bin]# rm testfile 

rm: 是 售 删 除 一 般 文 件 “testfile”? y -- 先 删 文件 

[root@localhost bin]# ./mongofiles get testfile -- 将 其 从 库 里 取出 来 

connected to: 127.0.0.1 


done write to: testfile 

[root@localhost bin]# md5sum testfile HS md5， 结 果 跟 库 里 相同 
8addbeb77789ae6b2cb75deee30fafla  testfile 

[root(2 localhost bin]& 














7.6 索引 


db.fs.chunks.ensurelndex((files id:1, n:1}, (unique: true}); 





这 样 ,一 个 块 就 可 以 利用 它 的 files_id 和 n 的 值 进 行 检 索 。 注 意 ，GridFs 仍然 可 以 用 findOne 
db.fs.chunks.findOne((files id: myFilelD, n: 0j); 





第 八 章 MapReduce 


MongoDB 的 MapReduce 相当 于 Mysql 中 的 "group by", 所 以 在 MongoDB 上 使 用 Map/Reduce 
进行 并 行 "统计 "很 容易 。 


使 用 MapReduce 要 实现 两 个 函数 Map AAAI Reduce 函数 ，Map 子 数 调用 emit(key, value), 
WJ collection 中 所 有 的 记录 ,将 key 与 value 传 递 给 Reduce 函数 进行 处 理 .Map AŽ Reduce 
KaJ LME JavaScript 来 实现 ， 可 以 通过 db.runCommand 或 mapReduce 命令 来 执行 一 个 
MapReduce 的 操作 : 


db.runCommand( 
{ mapreduce : «collection», 
map : «mapfunction», 


reduce : «reducefunction» 


[, query : «query filter object»] 


[, sort : «sorts the input objects using this key. Useful for optimization, like sorting by the 
emit key for fewer reduces»] 


[, limit : «number of objects to return from collection»] 





[, out : «see output options below>] 
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[, keeptemp: «true |false»] 


[, finalize : «finalizefunction»] 
[, scope : «object where fields go into javascript global scope >| 
[, verbose : true] 





党 | 一 


参数 说 明 : 

mapreduce: 要 操作 的 目标 集合 。 

map: BA PEZ (生成 键 值 对 序列 ， 作 为 reduce 函数 参数 )。 

reduce: 统计 函数 。 

query: 目标 记录 过 小 。 

sort: 目标 记录 排序 。 

imit: 限制 目标 记录 数量 。 

out: 统计 结果 存放 集合 (不 指定 则 使 用 临时 集合 ， 在 客户 问 断 开 后 目 动 删除 )。 
keeptemp: 是 否 保留 临时 集合 。 

finalize: ALH ZT (对 reduce 返回 结果 进行 最 终 整理 后 存 入 结果 集合 )。 
scope: 向 map, reduce, finalize 导入 外 部 变量 。 

verbose: 显示 评 细 的 时 间 统 计 信 息 。 








下 面 我 们 先 准备 一 些 数据 : 

> db.students.insert((classid:1, age:14, name:'Tom']) 

> db.students.insert([classid:1, age:12, name: 'Jacky']) 

> db.students.insert((classid:2, age:16, name: 'Lily']) 

> db.students.insert((classid:2, age:9, name:'Tony']) 

» db.students.insert((classid:2, age:19, name:'Harry']) 

> db.students.insert((classid:2, age:13, name:'Vincent']) 
> db.students.insert((classid:1, age:14, name: Bill']) 

> db.students.insert((classid:2, age:17, name:'Bruce']) 


> 


接 下 来 ， 我 们 将 演示 如 何 统计 1 班 和 2 班 的 学 生 数 量 








8.1 Map 


Map 函数 必须 调用 emit(key, value) 返回 键 值 对 ， 使 用 this 访问 当前 符 处 理 的 Document. 
> m = function() ( emit(this.classid, 1) } 
function () 1 


emit(this.classid, 1); 








value 可 以 使 用 JSON Object 传递 ( 文 持 多 个 属性 值 )。 例 如 


emit(this.classid, (count:1]) 
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8.2 Reduce 





Reduce 函数 接收 的 参数 类 似 Group AR, X4 Map 返回 的 键 值 序列 组 合成 { key, [valuet, 


value2, value3, value...] } 传递 给 reduce. 


> r = function(key, values) { 


... Var X= 0; 
... Values.forEach(function(v) {x += v }); 
... return x; 
2 
function (key, values) ( 
var x = 0; 
values.forEach(function (v) {x += v;}); 


return Xx; 





Reduce KXXX values 进行 "统计 " 操作 ， 返 回 结果 可 以 使 用 JSON Object. 


8.3 Result 


> res = db.cunCommand((1 
... mapreduce:" students", 
... map:m, 

... Feduce:r, 


... Out:"students res" 


Z2 


"result" : "students res", 
"timeMillis" : 1587, 
"counts" :{ 

"input" : 8, 


"emit" : 8, 


"output" : 2 


}, 
“ok™: 1 
} 
> db.students_res.find() 
人 
(" id" :2, "value" :5] 
> 
mapReduce() 将 结果 存储 在 "students_res" 表 中 。 
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8.4 Finalize 


利用 finalize() 我 们 可 以 对 reduce() 的 结果 做 进一步 处 理 。 


> f = function(key, value) { return {classid:key, count:value}; j 


function (key, value) ( 
return (classid:key, count:value]; 





我 们 再 重新 计算 一 次 ， 看 看 返回 的 络 
> res = db.runCommand({ 

... mapreduce:"students", 

... map:m, 

... Feduce:r, 

... Out: students res", 


... finalize:f 


Z2 


"result" : "students res", 
"timeMillis" : 804, 
"counts" :( 
"input" : 8, 
"emit" : 8, 
"output" : 2 
h 
"ok" :1 
j 
> db.students res.find() 
LU" id" : 1, "value" : ( "classid" : 1, "count" : 31] 
LU" id" : 2, "value" : ( "classid" : 2, "count" : 5] ] 
> 


列 名 变 与 “classid” 和 ”count” 了 ， 这 样 的 列表 更 容易 理解 。 





8.5 Options 


我 们 还 可 以 洪 加 更 多 的 控制 细 市 。 
> res = db.runCommand({ 

... mapreduce:"students", 

... map:m, 


.. reduce:r, 


... Out: students res", 


... finalize:f, 
... query:(age:(Slt:10]] 
9 
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"result" : "students res", 
"timeMillis" : 358, 
"counts" :( 


"input" : 1, 


"emit" : 1, 
"output" :1 
) 
"ok" :1 
j 
> db.students res.find(); 
LU" id" :2, "value" : ( "classid" : 2, "count" : 1] ] 
> 
可 以 看 到 先进 行 了 过 滤 ， 只 取 age<10 的 数据 ， 然 后 再 进行 统计 ， 所 以 束 没 有 1 班 的 统计 数 
HiS o 


第 三 部 分 管理 篇 





第 九 章 数据 导出 mongoexport 


作为 DBA, £55 xh E 于 入 于 出 数据 的 需求 ， 下 和 面 束 介绍 实用 工具 mongoexport 和 
mongoimport 的 使 用 方法 ， 望 你 会 有 所 收获 。 
假设 库 里 有 一 张 user 表 ， 里 面 有 2 条 记录 ， 我 们 要 将 它 导 


> use my mongodb 














switched to db my mongodb 

> db.user.find(); 

LU" id" : Objectid("4f81a4a1779282ca68fd8a5a"), "uid" : 2, "username" : "Jerry", "age" : 100] 
LU" id" : Objectid("4f844d1847d25a9ce5f120c4"), "uid" : 1, "username" : "Tom", "age" : 25] 
E 





前 用 导出 方法 


[root@localhost bin]# ./mongoexport -d my. mongodb -c user -o user.dat 
connected to: 127.0.0.1 
exported 2 records 


[root@localhost bin]& cat user.dat 

(" id" : ( "Soid" : "4f81a421779282ca68fd8a5a" }, "uid" : 2, "username" : "Jerry", "age" : 100] 
(" id" : ( "Soid" : "4844d1847d25a9ce5f120c4" ), "uid" : 1, "username" : "Tom", "age" : 25] 
[root(2 localhost bin]& 

参数 说 明 : 

e -d 指明 使 用 的 库 ， 本 例 中 为 ”my_mongodb” 
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e -c 指明 要 导出 的 表 ， 本 例 中 为 "user 


e  -o 指 明 要 导出 的 文件 名 ， 本 例 中 为 "userdat” 
从 上 面 可 以 看 到 导出 的 方式 使 用 的 是 JSON 的 样式 


9.2 导出 CSV 格式 的 文件 


[root@localhost bin]# ./mongoexport -d my mongodb -c user --csv -f uid,username,age -o 


user csv.dat 

connected to: 127.0.0.1 

exported 2 records 

[root(? localhost bin]# cat user csv.dat 
uid,username,age 

2, Jerry",100 

1, Tom"^,25 

[root(2 localhost bin]& 

参数 说 明 : 

€ -csv 指 要 要 导出 为 csv 格式 
e -f 指明 需要 导出 哪些 例 











更 详细 的 用 法 可 以 mongoexport -help 来 查看 


第 十 章 数据 导入 mongoimport 


在 上 例 中 我 们 讨论 的 是 导出 工具 的 使 用 ， 那 么 本 节 将 讨论 如 何 问 表 中 导入 数据 





10.1 导入 JSON 数据 


我 们 先 将 表 user 删除 挥 ， 以 便 演示 效 末 
> db.user.drop(); 

true 

> show collections; 

system.indexes 

> 





然后 导入 数据 
[root(? localhost bin]# ./mongoimport -d my mongodb -c user user.dat 
connected to: 127.0.0.1 


imported 2 objects 
[root(2 localhost bin]& 








可 以 看 到 导入 数据 的 时 候 会 隐 式 创建 表 结 构 
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10.2 导入 CSV 数据 





我 们 先 将 表 user MER, LLORAR 


> db.user.drop(); 


true 
> show collections; 


system.indexes 





> 


然后 导入 数据 

[root()localhost bin]# ./mongoimport -d my mongodb -c user --type csv --headerline --file 
user csv.dat 

connected to: 127.0.0.1 

imported 3 objects 

[root(2 localhost bin]& 

参数 说 明 : 

© -type 指明 要 导入 的 文件 格式 

€  -headerline 批 明 不 导入 第 一 行 ， 因 为 第 一 行 是 列 名 

e -fie 指明 要 导入 的 文件 路 径 








yh a 
TER. 


CSV 格式 良好 ， 主 流 数 据 库 都 支持 导出 为 CSV 的 格式 ， 所 以 这 种 格式 非常 利于 异 构 数 据 迁 移 








第 十 一 章 数据 备份 mongodump 


可 以 用 mongodump 来 做 MongoDB 的 库 或 表 级 别 的 备份 ， 下 面 举例 说 明 : 
备份 my_mongodb 数据 库 

[root(2 localhost bin]# ./mongodump -d my mongodb 

connected to: 127.0.0.1 

DATABASE: my mongodb to dump/my mongodb 





my mongodb.system.indexes to dump/my mongodb/system.indexes.bson 
1 objects 
my mongodb.user to dump/my. mongodb/user.bson 


2 objects 
[root(2 localhost bin] Il 
总 计 67648 
-rWXr-xr-x 1 root root 7508756 2011-04-06 bsondump 
drwxr-xr-x 3 root root 4096 04-10 23:54 dump 
-rwxr-xr-x 1 root root 2978016 2011-04-06 mongo 








此 时 会 在 当前 目录 下 创建 一 个 dump 目录， 用 于 存放 备份 出 来 的 文件 
也 可 以 指定 备份 存放 的 目录 ， 
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[root(? localhost bin]& ./mongodump -d my. mongodb -o my mongodb dump 
connected to: 127.0.0.1 
DATABASE: my. mongodb to my mongodb dump/my mongodb 


my mongodb.system.indexes 
my mongodb dump/my mongodb/system.indexes.bson 
1 objects 
my mongodb.user to my mongodb dump/my. mongodb/user.bson 
2 objects 
[root(2 localhost bin]& 








这 个 例子 中 将 备份 的 文件 存在 了 当前 目录 下 的 my_mongodb_dumop 目录 下 





第 十 二 章 数据 恢复 mongorestore 





由 于 刚刚 已 经 做 了 备份 ， 所 以 我 们 先 将 库 my_mongodb MER 
> use my mongodb 

switched to db my mongodb 

» db.dropDatabase() 

{ dropped" : "my mongodb", "ok" :1] 

» show dbs 

admin (empty) 

local — (empty) 

test (empty) 





> 


接 下 来 我 们 进行 数据 库 恢复 

[root@localhost bin]# ./mongorestore -d my_mongodb my. mongodb dump/* 
connected to: 127.0.0.1 

Wed Apr 11 00:03:03 my mongodb dump/my mongodb/user.bson 

Wed Apr 11 00:03:03 going into namespace [my mongodb.user] 

Wed Apr 11 00:03:03 2 objects found 


Wed Apr 11 00:03:03 my mongodb dump/my  mongodb/system.indexes.bson 


Wed Apr 11 00:03:03 going into namespace [my mongodb.system.indexes] 
Wed Apr 11 00:03:03 ( name: " id ", ns: "my mongodb.user", key: (. id: 15, v: 0] 
Wed Apr 11 00:03:03 1 objects found 

[root(2 localhost bin]& 











经 验证 数据 库 又 回来 了 ， 其 实 要 是 想 恢复 库 ， 也 大 可 不 必 先 删除 my mongodb PE, Hj 
明 -drop 参数 ， 束 可 以 在 恢复 的 时 候 先 删除 表 然 后 再 向 表 中 插入 数据 的 


第 十 三 章 访问 控制 


官方 手册 中 启动 MongoDB 服务 时 没有 任何 参数 ， 一 旦 客户 端 连接 后 可 以 对 数据 库 任意 操 
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作 ， 而 且 可 以 远程 访问 数据 库 ， 所 以 推荐 开发 阶段 可 以 不 设置 任何 参数 ， 但 对 于 生产 环境 还 
是 要 仔细 考虑 一 下 安全 方面 的 因素 ， 而 提高 MongoDB 数据 库 安 全 有 几 个 方面 : 

比 定 IP 内 网 地 址 访问 MongoDB 服务 

设置 监听 端口 

使 用 用 户 名 和 口令 登录 

















13.1 绑 定 IP 内 网 地 址 访问 MongoDB 服务 


MongoDB 可 以 限制 只 允许 某 一 特定 IP 来 访问 ， 只 要 在 启动 时 加 一 个 参数 bind ip 即 可 ， 如 
下 : 
服务 端 限制 只 有 192.168.1.103 这 个 IP 可 以 访问 MongoDB 服务 


[root@localhost bin]# ./mongod --bind ip 192.168.1.103 


75.) rj Jn] e| rs e TR XE M m] IP, AUSIRE: 
[root(2 localhost bin]# ./mongo 192.168.1.102 
MongoDB shell version: 1.8.1 





connecting to: 192.168.1.103/test 


> 





13.2 设置 监听 端口 





官方 默认 的 监听 端口 是 27017， 为 了 安全 起 抑 ， 一 般 都 会 修改 这 个 监听 端口 ， 避 免 恶 意 的 连 
接 尝 试 ， 具 体 如 下 : 
将 服务 端 监听 端口 修改 为 28018 


[root(2 localhost bin]# ./mongod --bind ip 192.168.1.103 --port 28018 


3m J^ Ui RIA NTRXEIS EI, BERRA mA 27017. XT IG 
[root(2 localhost bin]# ./mongo 192.168.1.102 
MongoDB shell version: 1.8.1 


connecting to: 192.168.1.102/test 
Sun Apr 15 15:55:51 Error: couldn't connect to server 192.168.1.102 shell/mongo.js:81 
exception: connect failed 





HrUA TA EHE 3m 1n. eJ m 2512 BR TH xem O Z n] EA IE 5$ 7j I] 
[root(2 localhost bin]& ./mongo 192.168.1.102:28018 
MongoDB shell version: 1.8.1 


connecting to: 192.168.1.102:28018/test 


> 





13.3 使 用 用 户 名 和 口令 登录 


MongoDB 默认 的 司 动 是 不 验证 用 户 名 和 蜜 但 的 ,启动 MongoDB 后 ,可 以 直接 用 MongoDB 连接 
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上 来 ,对 所 有 的 库 具 有 root 权限 。 所 以 月 动 的 时 候 指定 参数 ,可 以 阻 正 客户 端的 访问 和 连接 。 





和 完 局 用 系统 的 登录 验证 模块 ， 只 和 需 在 局 动 时 指定 auth 参数 即 可 ， 如 : 


[root@localhost bin]# ./mongod --auth 





本 地 客户 六 连接 一 下 看 看 效果 ; 
[root@localhost bin]# ./mongo 


MongoDB shell version: 1.8.1 

connecting to: test 

> Show collections; 

> 

很 奇怪 ， 为 什么 我 们 局 用 了 登录 验证 模块 ， 但 我 们 登录 时 没有 指定 用 户 ， 为 什么 还 可 以 登录 
WE? 在 最 初始 的 时 候 MongoDB 都 默认 有 一 个 admin 数据 库 〈 默 认 是 空 的 )， 

而 admin.system.users 中 将 会 保存 比 在 其 它 数据 库 中 设置 的 用 户 权 限 更 大 的 用 户 信息 。 
注意 : 当 admin.system.users 中 没有 添加 任何 用 户 时 , 即使 MongoDB 局 动 时 添加 了 --auth 
参数 , 如 采 在 除 admin 数据 库 中 添加 了 用 户 , 此 时 不 进行 任何 认证 依然 可 以 使 用 任何 操作 ， 
直到 知道 你 在 admin.system.users 中 添加 了 一 个 用 户 。 





























1、 建 立 系统 root 用 户 

在 admin 库 中 痢 添 一 个 用 户 root: 
[root(2 localhost bin]# ./mongo 
MongoDB shell version: 1.8.1 
connecting to: test 

> db.addUser("root"," 111") 


{ 


"user" : "root", 

"readOnly" : false, 

"pwd" : "e54950178e2fa777b1d174e9b106b6ab" 
j 
» db.auth("root"," 111") 
1 


> 








本 地 客户 兽 连 接 ， 但 不 指定 用 户 ， 结 有 果 如 下 : 
[root@localhost bin]# ./mongo 

MongoDB shell version: 1.8.1 

connecting to: test 


> show collections; 


Sun Apr 15 16:36:52 uncaught exception: error: { 
"Serr" : "unauthorized db:test lock type:-1 client:127.0.0.1", 
"code" : 10057 








连 上 test ÆJ, (HE ZETRTEINPIE m, AR MongoDB 允许 未 授权 连接 ， 不 能 进行 任何 
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KWAPE, JEH, ARU F: 


[root@localhost bin]# ./mongo -u root -p 


MongoDB shell version: 1.8.1 
Enter password: 

connecting to: test 

> show collections; 
system.indexes 

system.users 

> 


看 来 指定 了 用 户 名 之 后 ， 访 问 数 据 库 才 是 正常 





2、 建 立 指定 权限 用 户 
MongoDB 也 文 持 为 东 个 特定 的 数据 库 来 设置 用 户 ， 如 我 们 为 test 库 设 一 个 只 读 的 用 户 


user reader: 








[root(2 localhost bin]& ./mongo -u root -p 
MongoDB shell version: 1.8.1 
Enter password: 
connecting to: test 
» show collections; 
system.indexes 
system.users 
> use test 
switched to db test 
» db.addUser("user reader", "user pwd", true) 
{ 
"user" : "user reader", 
"readOnly'" : true, 
"pwd" : "0809760bb61ee027199e513cb5becdedc6" 





客户 端 用 此 用 户 来 访问 : 

[root@localhost bin]# ./mongo -u user. reader -p 
MongoDB shell version: 1.8.1 

Enter password: 

connecting to: test 


» show collections; 


system.indexes 


sSystem.users 
> 
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A^ x. 一 十 局 
第 十 四 章 命令 行 操作 


MongoDB shell 不 仅仅 是 一 个 交互 式 的 shell， 它 也 文 持 执行 指定 javascript 文件 ， 也 文 持 执行 
指定 的 命令 片断 。 

















有 了 这 个 特性 ， 就 可 以 将 MongoDB 5 linux shell 完美 结合 ， 完 成 大 部 分 的 日 常 管理 和 维护 
5s 


14.1 通过 eval 参数 执行 指定 语句 








例如 ， 需 要 得 询 test ÆW t1 表 中 的 记录 数 有 多 少 ， 和 常用 方法 如 下 : 
[root@localhost bin]# ./mongo test 


MongoDB shell version: 1.8.1 
connecting to: test 

> db.t1.count() 

7 


> 





通过 命令 行 eval 参数 直接 执行 语句 : 
[root(2 localhost bin]# ./mongo test --eval "printjson(db.t1.count())" 
MongoDB shell version: 1.8.1 


connecting to: test 
7 





14.2 执行 指定 文件 中 的 内 容 


如 条 涉 及 到 很 多 的 操作 后 ， 才 能 得 到 结 末 ， 那 么 用 eval 的 方式 来 做 的 话 是 不 可 能 完成 的 ， 
那么 更 灵活 的 执行 指定 文件 的 方式 束 派 上 用 场 了 。 例 如 我 们 仍然 要 但 看 test FE t1 表 中 的 记 
EE 











t1 count.js WERTET, Hm A EA 
[root(? localhost bin]# cat t1 count.js 


var totalcount = db.t1.count(); 


printjson('Total count of t1 is: '-totalcount); 
printjson(' 





下 面 我们 将 执行 这 个 文件 
[root(2 localhost bin]& ./mongo t1 count.js 
MongoDB shell version: 1.8.1 


connecting to: test 
"Total count oftlis: 7" 
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大 家 可 以 看 到 最 终 得 到 t1 表 的 记录 数 7， 那 么 一 些 不 必要 的 说 明 性 文字 我 们 要 是 不 希望 出 
现 该 怎么 办 呢 ? 


[root@localhost bin]& ./mongo --quiet t1 count.js 


"Total count oft1is: 7" 





[root(2 localhost bin]& 
通过 指定 quiet 参数 ， 即 可 以 将 一 些 登 录 信 息 屏 蔽 反 ， 这 样 可 以 让 结 末 更 请 晰 。 


第 十 五 章 进程 控制 


DBA 经 党 要 解决 系统 的 一 些 会 询 性 能 问题 ,此 时 一 般 的 操作 习惯 是 和 完全 看 有 哪些 进程 , 然后 
将 异常 的 进程 杀 挥 ， 那 么 MongoDB 是 怎么 样 处 理 的 呢 ? 


15.1 和合 看 活动 进程 


答 看 活动 进程 ， 便 于 了 解 系统 正在 做 什么 ， 以 便 做 下 一 步 判断 
> db.currentOp(); 
> // 等 同 于 : db.Scmd.sys.inprog.findOne() 


Linprog: [ ( "opid" : 18 , "op" : "query" , "ns" : "mydb.votes" , 














"query" : "{ score : 1.0 }" , "inLock" : 1j 





段 说 明 : 
Opid: 操作 进程 号 
Op: 操作 类 型 (查询 ， 更 新 等 ) 
Ns: 命名 空间 , 指 操 作 的 是 哪个 对 象 
Query: 如 果 操 作 类 型 是 查询 的 话 ， 这 里 将 显示 具体 的 查询 内 容 
lockType: 锁 的 类 型 ， 指 明 是 庶 锁 还 是 写 锁 








eeeee@e 业 | 一 


15.2 结束 进程 


如 果 东 个 异 帅 是 由 于 和 个 进程 产生 的 ， 那 么 一 般 DBA $e BI ATO EU B IE 

















进程 ， 下 面 将 是 这 操作 
> db.killOp(1234/*opid*/) 
> // 等 同 于 : db.Scmd.sys.killop.findOne((op:1234]) 
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第 十 六 革 XUI 


MongoDB 提供 了 多 样 性 的 索引 文 持 , 索引 信息 被 保 存在 system.indexes H, HIRA MJN id 
创建 索引 ， 它 的 索引 使 用 基本 和 MySQL 等 关系 型 数据 库 一 样 。 其 实 可 以 这 样 交 说， 索引 是 
姿 要 于 数据 存储 系统 之 上 的 另 一 层 系 统 , 所 以 各 种 结构 授 开 的 存储 都 有 相同 或 相似 的 索引 实 
现 及 使 用 接口 并 不 足 为 奇 。 


16.1 基础 索引 


在 字段 age AJER 10TFE)-ACRIT) 
> db.t3.ensurelndex((age:1]) 

> db.t3.getlndexes(); 

[ 








{ 
"name" :" id ", 
"ns" : test.t3", 
"key" :1 


h 
"y" . 0 


" id" : Objectid("4fb906da0be63216340839fe"), 
"ns" : test.t3", 
"key" . { 


b 
"name":"age 1", 
"y" . 0 














上 例 显示 出 来 的 一 共有 2 ARI EP id 是 创建 表 的 时 候 目 动 创建 的 索引 ， 此 索引 古 不 能 
UE ERE « 











当 系 统 已 有 大 量 数 据 时 ， 创 建 案 引 就 古 个 非常 耗 时 的 活 ， 我 们 可 以 在 后 台 执 行 ， 只 和 需 指定 
^ backgroud:true" ENEJ. 


> db.t3.ensurelndex([age:1]) , (backgroud:true]j) 
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16.2 文档 索引 


索引 可 以 任何 类 型 的 字段 ， 其 全 文档 


db.factories.insert( { name: "wwl", addr: ( city: "Beijing", state: "BJ" } 1j; 


// 在 addr 列 上 创建 索引 


db.factories.ensurelndex( ( addr : 1 }); 


/下 面 这 个 租 询 将 会 用 到 我 们 刚刚 建立 的 索引 
db.factories.find( { addr: | city: "Beijing", state: "BJ" } }); 











[EŒ Fx TERRE H SURSI, KA AEA ER ZR 2 | LEISURE AN — RE 
db.factories.find( { addr: { state: "BJ" , city: "Beijing") ) ); 








16.3 组 合 索 引 


跟 其 它 数 据 库 产 品 一 样 ，MongoDB 也 是 有 组 合 索引 的 ， 下 面 我 们 将 在 addrcity 和 addrstate 
L£Ev2HeA SI. SIEHE SIE. FRAEN 1 表示 升序 ，-1 表示 降序 ， 是 用 1 还 是 
用 -1 主要 是 跟 排 序 的 时 候 或 指定 范围 内 奏 询 的 时 候 有 关 的 。 


db.factories.ensurelndex( ( "addr.city" : 1, "addr.state" : 1] J; 











// 下 面 的 得 询 都 用 到 了 这 个 索引 

db.factories.find( ( "addr.city" : "Beijing", "addr.state" : "BJ" } J; 
db.factories.find( ( "addr.city" : "Beijing" }); 
db.factories.find().sort( ( "addr.city" : 1, "addr.state" : 1 } ); 
db.factories.find().sort( ( "addr.city" : 1) ) 





16.4 唯一 索引 


只 需 在 ensurelndex 命令 中 指定 “unidue:true” 即 可 创建 唯一 索引 。 例 如 ， 往 表 t4 中 搬入 2 条 
记录 


db.t4.insert((firstname: "wang", lastname: "wenlong"]J; 





db.t4.insert((firstname: "wang", lastname: "wenlong"]J; 


在 t4 表 中 建立 唯一 索引 


> db.t4.ensurelndex([firstname: 1, lastname: 1}, (unique: true]); 


E11000 duplicate key error index: test.t4.Sfirstname 1 lastname 1 dup key: ( : "wang", : 





"wenlong" } 
可 以 看 到 ， 当 建 唯一 索引 时 ， 系 统 报 了 “ 表 里 有 重复 值 ” 的 错 ， 有 其 体 原 因 束 是 因为 表 中 有 2 
条 一 模 一 模 的 数据 ， 所 以 建立 不 了 唯一 索引 。 
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16.5 强制 使 用 索引 


hint 命令 可 以 强制 使 用 菏 个 索引 |。 


> db.t5.insert({name: "wangwenlong",age: 20]) 








> db.t5.ensurelndex({name:1, age:1}) 
> db.t5.find((age:(SIt:30]]).explain() 
{ 
"cursor" : "BasicCursor", 
"nscanned" : 1, 
"nscannedObjects" : 1, 
"moa db 
"millis" : O, 
"nYields" : O, 
"nChunksSkips" : O, 
"isMultiKey" : false, 
"indexOnly" : false, 


"indexBounds" : ( -- 并 没有 用 到 索引 


j 
> db.t5.find((age:(SIt:30)]).hint((name:1, age:1]).explain() -- 强 制 使 用 索引 
"cursor" : "BtreeCursor name 1 age 1 ， 
"nscanned'" : 1, 
"nscannedObjects" : 1, 
"n':1, 
"millis" : 1, 
"nYields" : O, 
"nChunksSkips" : O, 
"isMultiKey" : false, 
"indexOnly" : false, 





"indexBounds" : { -被 强制 使 用 索引 了 
"name" :| 
[ 
{ 
"SminElement" : 1 
) 
{ 
"SmaxElement" : 1 
} 
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-1.7976931348623157e+308, 
30 





16.6 删除 索引 


删除 索引 分 为 删除 某 张 表 的 所 有 索引 和 删除 某 张 表 的 某 个 索引 ， 上 其 体 如 下 : 
// 删 除 t3 ze "PIDE RS 
db.t3.dropIndexes() 











/ [WES t4 表 中 的 firstname 2&5] 
db.t4.droplIndex([firstname: 1]) 





第 十 七 章 explain 执行 计划 


MongoDB 提供 了 一 个 explain 命令 让 我 们 获知 系统 如 何 处 理 谷 询 请 求 。 利 用 explain 命令 ， 
我 们 可 以 很 好 地 观察 系统 如 何 使 用 过 引 来 加 快 检索 ， 同 时 可 以 针对 性 优化 索引 。 





> db.t5.ensurelndex({name:1}) 
> db.t5.ensurelndex({age:1}) 
> db.t5.find({age:{Sgt:45}}, {name:1}).explain() 
{ 
"cursor" : "BtreeCursor age 1", 
"nscanned'" : 0, 
"nscannedObjects" : O, 
"Ime al 
"millis" : O, 
"nYields" : O, 


"nChunksSkips" : O, 
"isMultiKey" : false, 


"indexOnly" : false, 
"indexBounds" : { 


1./976931348623157e4308 
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~ 
~v 


段 说 明 : 
cursor: 返回 游标 类 型 (BasicCursor 或 BtreeCursor) 
nscanned: 被 扫 摘 的 文档 数量 
n: 返回 的 文档 数量 
millis: 耗 时 (毫秒 ) 
indexBounds: 所 使 用 的 索引 





e e e e e 4 


"Bd JN AH profile 


在 MySQL 中 , 慢 查 询 日 志 是 经 党 作为 我 们 优化 数据 库 的 依据 ， 那 在 MongoDB 中 是 否 有 类 似 
的 功能 呢 ? 答 案 是 肯定 的 ， 那 束 是 MongoDB Database Profiler。 所 以 MongoDB MNA., mH. 
还 有 一 些 比 MySQL 的 Slow Query Log 更 详细 的 信息 。 




















18.1 开启 Profiling 功能 











有 两 种 方式 可 以 控制 Profiling 的 开关 和 级 别 ， 第 一 种 是 直接 在 局 动 参 数 里 下 接 进行 设置 。 
启动 MongoDB 时 加 上 -profile= 级 别 即 可 。 

也 可 以 在 客户 问 调 用 db.setProfilingLevel( Zi a) 命令 来 实时 配置 ，Profiler 信息 保存 在 
system.profile F. 我 们 可 以 通过 db.getpProfilingLevel() 命 令 来 获取 当前 的 Profile 级 别 ， 类 似 如 
下 操作 

> db.setProfilingLevel(2); 

{ "was" : 0, "slowms" : 100, "ok" : 1} 

EH profile 的 级 别 可 以 取 0，1，2 三 个 值 ， 他 们 表示 的 意义 如 下 : 

e 0- 不 开局 

e 1- 记录 慢 命 令 (默认 为 >100mas) 

e 2- 记录 所 有 命令 

















Profile 记录 在 级 别 1 时 会 记录 慢 命 令 ， 那 么 这 个 慢 的 定义 是 什么 ?上 面 我 们 说 到 其 默认 为 
100ms， 当 然 有 默认 就 有 设置 ， 其 设置 方法 和 级 别 一 样 有 两 种 ， 一 种 是 通过 添加 -slowms JH 
动 参数 配置 。 第 二 种 是 调用 db.setProfilingLevel 时 加 上 第 二 个 参数 : 

db.setProfilingLevel( level , slowms ) 

db.setProfilingLevel( 1 , 10 ); 





18.2 查询 Profiling 记录 











与 MySQL 的 慢 查 询 日 志 不 同 ，MongoDB Profile 记录 是 直接 存在 系统 db 里 的 ， 记 录 位 置 
system.profile ， 所 以 ， 我 们 只 要 查询 这 个 Collection 的 记录 就 可 以 获取 到 我 们 的 Profile id 
录 了 。 列 出 执行 时 间 长 于 某 一 限度 (5ms) 的 Profile 记录 : 

db.system.profile.find( { millis : { Sgt :5 }}) 
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查看 最 新 的 Profile 记录 : 

db.system.profile.find().sort((Snatural:-1]).limit(1) 

> db.system.profile.find().sort((Snatural:-1]).limit(1) 

{ "ts" : ISODate("2012-05-20T16:50:36.321Z"), "info" : "query test.system.profile reslen:1219 


nscanned:8 \nquery: ( query: (], orderby: ( Snatural: -1.0 }} nreturned:8 bytes:1203", "millis" : 











0j 

> 

字段 说 明 : 

© ts: 该 命令 在 何 时 执行 

€ info: 本 命令 的 详细 信息 

€  reslen: 返回 结果 集 的 大 小 

€  nscanned: 本 次 查询 扫描 的 记录 数 

€  nreturned: 本 次 查询 实际 返回 的 结果 集 
€ milis: 该 命令 执行 耗 时 ， 以 坚 秒 记 


MongoDB Shell 还 提供 了 一 个 比较 简洁 的 命令 show profile， 可 列 出 最 近 5 条 执行 时 间 超 过 
1ms 的 Profile 记录 。 


第 十 九 章 性 能 优化 


如 果 nscanned( 扫 描 的 记录 数 ) 远 大 于 nreturned( 返 回 结果 的 记录 数 ) 的 话 ， 那 么 我 们 就 要 考虑 
通过 加 索引 来 优化 记录 定位 了 。 

reslen 如 果 过 大 , 那么 说 明 我 们 返回 的 结 末 集 太 大 了 , 这 时 请 答 看 find 函数 的 第 二 个 参数 是 
否 只 写 上 了 你 需要 的 属性 名 。 

对 于 创建 索引 的 建议 是 : 如 果 很 少 谈 ， 那 么 尽量 不 要 添加 索引 ， 因 为 索引 越 多 ， 写 操作 会 越 
慢 。 如 果 恋 量 很 大 ， 那 么 创建 索引 还 是 比较 划算 的 。 



































假设 我 们 投 照 时 间 鹤 租 询 最 近 发 表 的 10 钥 博 客 文章 : 
articles = db.posts.find().sort((ts:-1]); 


for (var i20; i< 10; i++) ( 


print(articles[i].getsummary()); 





19.1 优化 方案 1: 创建 索引 


自 合 询 条 件 的 字段 上 ， 或 者 排序 条 件 的 字段 上 创建 索引 ， 可 以 显著 提 噩 执行 效率 : 


19.2 优化 方案 2: 限定 返回 结果 条 数 


使 用 limit() 限 定 返 回 结 果 集 的 大 小 ， 可 以 减少 database server 的 资源 消耗 ， 可 以 减少 网 络 传 
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输 数 据 量 。 


articles = db.posts.find().sort({ts:-1}).limit(10); 





19.3 优化 方案 3: 只 碍 询 使 用 到 的 字段 ， 而 不 查询 所 有 了 字段 


在 本 例 中 ， 博 客 日 六 记录 内 容 可 能 非常 大 ， 而 且 还 包括 了 评论 内 容 〈 作 为 embeded 文档 )。 














所 以 只 碍 询 使 用 的 字段 ， 比 查询 所 有 字段 效率 更 高 : 


articles = db.posts.find((], {ts:1,title:1,author:1,abstract:1}).sort({ts:-1}).limit(10); 
注意 : UA He B. 不 能 用 返回 的 对 象 直 接 更 新 数据 库 。 下面 的 代码 是 错误 的 : 


a post = db.posts.findOne((], Post.summaryFields); 














a post.x- 3; 


db.posts.save(a post); 





19.4 优化 方案 4: 采用 capped collection 


capped Collections 比 普通 Collections HJIR 5 RCX Fy » Capped Collections Zé rej CIT) Collection 

类 型 ， 它 有 如 下 特点 : 

1、 国 定 大 小 ; Capped Collections 必须 事先 创建 ， 并 设置 大 小 : 

2. Capped Collections 可 以 insert 和 update 操作 ;不 能 delete 操作 。 只 能 用 drop O 方法 
删除 整个 Collection。 

3. 默认 基于 Insert 的 次 序 排序 的 。 如 果 得 询 时 没有 排序 ， 则 总 是 按照 insert 的 顺序 返回 。 

4、FIFO。 如 条 超过 了 Collection 的 限定 大 小 ， 则 用 FIFO 算法 ， 狐 记录 将 伏 代 最 完 insert 的 
dk. 











19.5 优化 方案 5: 采用 Server Side Code Execution 


Server-Side Processing 类 似 于 SQL 数据 库 的 存储 过 程 , 使 用 Server-Side Processing 可 以 减 小 网 
络 通 讯 的 开销 。 


19.6 优化 方 6: Hint 





一 般 情 况 下 MongoDB query optimizer 部 工作 民 好 ,但 有 些 情况 下 使 用 hint() 可 以 提高 操作 效 
X, Hint 可 以 强制 要 求 碍 询 操作 使 用 茶 个 索引 。 例 如 ， 如 果 要 和 奉 询 多 个 字段 的 值 ， 如 末 在 其 
中 一 个 字段 上 有 索引 ， 可 以 使 用 hint: 














db.collection.find((user:u, foo:d])).hint([user:1]); 


19.7 优化 方案 7: 采用 Profiling 











Profiling 功能 肯定 是 会 影 啊 效 率 的 ， 但 是 不 太 严 重 ， 诛 因 是 他 使 用 的 是 system.profile 来 记 
录 ， 而 system.profile 是 一 个 capped collection 这 种 collection 在 操作 上 有 一 些 限制 和 特点 ， 
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十 
项 
BR 
B 
HE 


20.1 mongosniff 


此 工具 可 以 从 底层 监控 到 底 有 哪些 命令 发 送 给 了 MongoDB 去 执行 ， 从 中 就 可 以 进行 分 析 : 
以 root 里 份 执行 : 


./mongosniff --source NET lo 


然后 其 会 监控 位 到 本 地 以 localhost 监听 默认 27017 端口 的 MongoDB 的 所 有 包 请 求 ， 如 执 
ÍT"show dbs” PRVE 
[root@localhost bin]# ./mongo 


MongoDB shell version: 1.8.1 
connecting to: test 

> show dbs 

admin 0.0625GB 

foo 0.0625GB 

local (empty) 

test 0.0625GB 

> 





那么 你 可 以 看 到 如 下 输出 。 

[root(2 localhost bin]# ./mongosniff --source NET lo 

sniffing... 27017 

127.0.0.1:38500  --»» 127.0.0.1:27017 admin.$cmd 60 bytes  id:537ebeOf 1400815119 
query: ( whatsmyuri: 1}  ntoreturn: 1 ntoskip: 0 

127.0.0.1:27017 <<-- 127.0.0.1:38500 . 78 bytes id:531c3855 1394358357 - 1400815119 
reply n:1 cursorld: 0 
{ you: "127.0.0.1:38500", ok: 1.0] 

127.0.0.1:38500  --»» 127.0.0.1:27017 admin.$cmd 80 bytes  id:537ebe10 1400815120 
query: { replSetGetStatus: 1, forShell: 1)  ntoreturn: 1 ntoskip: 0 

127.0.0.1:27017 <<-- 127.0.0.1:38500 2392 bytes id:531c3856 1394358358 - 1400815120 
reply n:1 cursorld: 0 
{ errmsg: "not running with --replSet", ok: 0.0 ] 

127.0.0.1:38500  --»» 127.0.0.1:27017 admin.S$cmd 67 bytes  id:537ebe11 1400815121 
query:[listDatabases: 1.0)  ntoreturn: -1 ntoskip: 0 

127.0.0.1:27017 <<-- 127.0.0.1:38500 . 293 bytes id:531c3857 1394358359 - 1400815121 
reply n:1 cursorld: 0 


( databases: [ ( name: "foo", sizeOnDisk: 67108864.0, empty: false ), ( name: "test", 
sizeOnDisk: 67108864.0, empty: false ), ( name: "admin", sizeOnDisk: 67108864.0, empty: false }, 
{ name: "local", sizeOnDisk: 1.0, empty: true } ], totalSize: 201326592.0, ok: 1.0 ) 
127.0.0.1:38500  --»» 127.0.0.1:27017 admin.$cmd 80 bytes  id:537ebe12 1400815122 
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query: { replSetGetStatus: 1 forShell: 1) ntoreturn: 1 ntoskip: 0 
127.0.0.1:27017 <<--  127.0.0.1:38500 292 bytes id:531c3858 1394358360 - 1400815122 
reply n:1 cursorld: O 





{ errmsg: "not running with --replSet", ok: 0.0 ) 


AU RP o y E 38) ^ HS CE HB AMAN ARE EA A FEBRTEIT] E wK, XF 

















期 的 性 能 分 机 和 安全 审计 等 工作 将 是 一 个 巨大 的 页 献 。 


20.2 Mongostat 





此 工具 可 以 快速 的 查看 某 组 运行 中 的 MongoDB 实例 的 统计 信息 ， 用 法 如 下 : 
[root(? localhost bin]& ./mongostat 

下 面 是 执行 结果 (部 分 ): 

[root@localhost bin]# ./mongostat 

insert query update delete locked 96 idx miss 96 qrlqw arlaw conn time 


*0 *0 *0 ojo 1|0 4 01:19:15 
*0 *0 *0 ojo 1|0 4 01:19:16 
*0 *0 *0 ojo 1|0 4 01:19:17 





字段 说 明 : 
€ insert: 每 秒 插 入 量 

€ query: PAWE 

© update: 每 秒 更 新 量 

€ delete: 每 秒 删 除 量 

€ locked: 锁定 量 

€ ar|qw: 2) i erigi BASE (x | S5) 
o 

o 

o 

它 





ar | aw: 1522€) i SE (13: | 53) 
conn: 连接 数 
time: 当前 时 间 
每 秒 钟 刷 新 一 次 状态 值 , 提供 民 好 的 可 读 性 , 通过 这 些 参数 可 以 观察 到 一 个 整体 的 性 能 情 
Ws 





20.3 db.serverStatus 








这 个 命令 是 最 第 用 也 是 最 基础 的 但 看 实例 运行 状态 的 命令 之 一 ， 下 面 我 们 看 一 下 它 的 输出 : 
> db.serverStatus() 


{ 


"host" : "localhost.localdomain", 
"version" : "1.8.1", -- 服 务 器 版 本 


"process" : mongod ， 

"uptime" : 3184, -- 司 动 时 间 ( 秒 ) 

"uptimeEstimate" : 3174, 

"localTime" : ISODate("2012-05-28T11:20:22.8197Z"), 
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"globalLock" : { 


"totalTime" : 3183918151, 


"lockTime" : 10979, 


"ratio" : 0.000003448267034299149, 


"currentQueue" : ( 


"total" : O, 
"readers" : O, 
"writers" :0 
h 
"activeClients" : { 
"total" : O, 
"readers" : O, 
"writers" :0 
j 
h 
"mem" :1{ 
"bits" : 32, 
"resident" : 20, 
"virtual" : 126, 
"supported" : true, 
"mapped" : 32 
h 
"connections" : { 
"current" : 1, 
"available" : 818 


"indexCounters" : ( 
"btree" :( 
"accesses" : O, 
"hits" : O, 
"misses" : 0， 
"resets" : O, 


"missRatio" :0 


} 
h 
"network" : { 
"bytesIn" : 1953, 
"bytesOut" : 25744, 
"numRequests'" : 30 
h 


"opcounters" : ( 
"insert" : O, 


-当前 全 部 队列 量 
-- 读 请 求 队列 量 
-- 写 请 求 队列 量 





-- 当 前 全 部 客户 端 连接 量 








-客户 端 读 请 求 量 
-客户 端 写 请 求 量 








--32 位 系统 
-- 占 用 物 量 内 存量 
-虚拟 内 存量 
-是 个 文 持 扩 展 内 存 




















-- 当 前 活动 连接 量 
-剩余 空闲 连接 量 





--& 5 MBEUI In E 
-—- ug E 
--& Mia E 











-- 9 M ze S (Rm H) 





-发 给 此 服务 需 的 数据 量 (单位 :byte) 








--JE BEL A5 d c h B tds tec (PA byte) 


-- JL ZR CHECA 8 HE VEO E: 


-插入 操作 的 量 
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"query" : 1, -- 得 询 操作 的 量 
"update" : 0, -- 更 新 操作 的 量 
"delete" : O, -- 删 除 操 作 的 量 
"getmore" : O, 


"command" : 31 -- 其 它 操作 的 量 








此 工具 提 了 比较 详细 的 信息 ， 以 上 已 经 对 主要 的 一 些 参数 做 了 说 明 ， 请 大 家 参考 。、 





20.4 db.stats 


db.stats 但 看 数据 库 状 态 信 息 。 使 用 样 例 如 下 : 

> db.stats() 

{ 
"db" : "test", 
"collections" : 7, --collection 数量 
"objects" : 28, -- 对 象 数 量 
"avgObjSize" : 50.57142857142857, -- 对 象 平 均 大 小 
"dataSize" : 1416, -数据 大 小 


"storageSize" : 31744, -- 数 据 大 小 ( 含 预 分 配 空间 ) 
"numExtents" : 7, -- 事 件数 量 


"indexes" : 7, -- 索 引 数 量 
"indexSize" : 57344, -- 索 引 大 小 


"fileSize" : 50331648, -- 文 件 大 小 
"ok" :1 -- 本 次 取 Stats 2E 1E 











通过 这 个 工具 ， 可 以 但 看 所 在 数据 库 的 基本 信息 


20.5 第 三 方 工具 








MongoDB 从 一 面世 束 得 到 众多 开源 爱好 者 和 团队 的 重视 ， 在 常用 的 监控 框架 如 cacti、 


Nagios, Zabbix 等 基础 上 进行 扩展 ， 进 行 MongoDB 的 监控 都 是 非常 方便 的 ， 有 兴趣 的 朋友 
可 以 日 已 去 多 试 试 。 
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第 五 部 分 ARTES 


第 二 十 一 章 Replica Sets 复制 集 


MongoDB 支持 在 多 个 机 器 中 通过 异步 复制 达到 故障 转移 和 实现 元 余 。 多 机 器 中 同一 时 刻 只 
一 台 是 用 于 写 操 作 。 正 是 由 于 这 个 情况 ， 为 MongoDB 提供 了 数据 一 致 性 的 保障 。 担 当 
Primary 角色 的 机 器 能 把 读 操 作 分 发 给 slave. 





MongoDB 高 可 用 可 用 分 两 种 : 
€  Master-Slave 主 从 复制 : 

只 需要 在 某 一 个 服务 启动 时 加 上 -master 参数 ,而 男 一 个 服务 加 上 -slave 与 -source 参数 ， 
即 可 实现 同步 。MongoDB 的 最 狐 版 本 已 不 再 推荐 此 方案 。 
€ Replica Sets 复制 集 : 

MongoDB 在 1.6 版 本 对 开发 了 新 功能 replica set， 这 比 之 前 的 replication 功能 要 强大 一 
些 ， 增 加 了 故障 目 动 切换 和 上 自动 修复 成 员 市 点 ， 各 个 DB 之 间 数 据 完全 一 致 ， 大 大 降低 了 维 
护 成 功 。auto shard 已 经 明确 说 明 不 支持 replication paris， 建 议 使 用 replica set, replica set 
故障 切换 完全 日 动 。 








3-node Replica Set 





如 果 上 图 所 示 ，Replica Sets 的 结构 非常 类 似 一 个 集群 。 是 的 ， 你 完全 可 以 把 它 当 成 集群 ， 因 
为 它 确 实 跟 集群 实现 的 作用 是 一 样 的 , 其 中 一 个 节点 如 果 出 现 故 障 , HUE end bed V 
接 过 来 而 无 须 停机 操作 。 





21.1 [X Replica Sets 








接 下 来 将 一 步 一步 的 给 大 家 分 享 一 下 实施 步骤: 
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1、 创 建 数据 文件 存储 路 径 
[root(2 localhost ~]# mkdir -p /data/data/rO 


[root(2 localhost ~]# mkdir -p /data/data/r1 
[root(2 localhost ~]# mkdir -p /data/data/r2 





2、 创 建 日 志文 件 路 径 


[root@localhost ~]# mkdir -p /data/log 


3、 创 建 主 从 key 文件 ， 用 于 标识 集群 的 私 钥 的 完整 路 径 ， 如 采 各 个 实例 的 key file 内 容 不 一 
M, FEF KAREE T H o 

[root@localhost ~]# mkdir -p /data/key 

[root@localhost ~]# echo "this is rs1 super secret key" > /data/key/rO 








[root@localhost ~]# echo "this is rs1 super secret key" > /data/key/r1 
[root@localhost ~]# echo "this is rs1 super secret key" > /data/key/r2 
[root@localhost ~]# chmod 600 /data/key/r* 





4. JAD 3 个 实例 

[root(2localhost ~]# /Apps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/rO --fork --port 
28010 --dbpath /data/data/rO --logpathz/data/log/rO.log --logappend 

all output going to: /data/log/rO.log 

forked process: 6573 

[root@localhost ~]# /Apps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/r1 --fork --port 
28011 --dbpath /data/data/r1 --logpathz/data/log/r1.log --logappend 

all output going to: /data/log/r1.log 

forked process: 6580 

[root(2localhost ~]# /Apps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/r2 --fork --port 
28012 --dbpath /data/data/r2 --logpathz/data/log/r2.log --logappend 

all output going to: /data/log/r2.log 

forked process: 6585 

[root(2 localhost ~]# 





5、 配 置 及 初始 化 Replica Sets 

[root(2 localhost bin]# /Apps/mongo/bin/mongo -port 28010 

MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:28010/test 

> config rs1-( id: 'rs1', members: [ 
{ id: 0, host: "localhost:28010', priority:1), -- 成 员 IP 及 端口 ，priority=1 指 PRIMARY 
L id: 1, host: 'localhost:28011*j, 


Lid: 2, host: 'localhost:28012']] 
j 


CIS . "rs1", 
"members" :| 


{ 





63/91 


} 


北京 麒麟 网 信息 科技 有 限 公 司 DBA 王 文 龙 wangwenlong 2009@live.cn 
”id :0， 


"host" : "localhost:28010" 


"dd «T 
"host" : "localhost:28011" 


" id" :2, 


"host" : "localhost:28012" 


> rsinitiate(config rs1); .--J54 o E 


{ 





"info" : "Config now saved locally. Should come online in about a minute.", 
"ok": 1 








6、 答 看 复制 集 状态 
> rs.status() 


{ 





set" : "rs1", 
"date" : ISODate("2012-05-31T09:49:57Z"), 
"myState" : 1, 
"members" :| 
{ 
" id™:0, 
"name" : "localhost:28010", 
"health" : 1, --1 表 明正 党 ;0 EH Ars 
"state" : 1, -- 1 表明 是 Primary; 2 表明 是 Secondary; 








"stateStr" : "PRIMARY", -- 表 明 此 机 器 是 主 库 
"optime" :{ 

"t" : 1338457763000, 

E ud : 1 


h 
"optimeDate" : ISODate("2012-05-31T09:49:232"), 


"self" : true 


MS 1, 
"name" : "localhost:28011", 
"health" : 1, 
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"state" : 2, 
"stateStr" : "SECONDARY", 
"uptime" : 23, 
"optime" :{ 
"t" : 1338457763000, 
m 


i 
"optimeDate" : ISODate("2012-05-31T09:49:237Z"), 
"lastHeartbeat" : ISODate("2012-05-31T09:49:56Z") 


nice 2. 
"name" : "localhost:28012", 
"health" : 1, 
"state" : 2, 
"stateStr" : "SECONDARY", 
"uptime" : 23, 
"optime" :{ 
"t" : 1338457763000, 
Eel 
h 
"optimeDate" : ISODate("2012-05-31T09:49:23Z^), 
"lastHeartbeat" : ISODate("2012-05-31T09:49:56Z") 


| 

"ok" :1 
} 
rs1: PRIMARY» 





还 可 以 用 isMaster 查看 Replica Sets 状态 。 
rs1:PRIMARY> rs.isMaster() 
"setName" : "rs1", 
"ismaster" : true, 
"secondary" : false, 
"hosts" :| 
"localhost:28010", 


"localhost:28012", 
"localhost:28011" 


l, 
"maxBsonObjectSize" : 16777216, 
"ok" . 1 

j 

rs1:PRIMARY» 
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21.2 主 从 操作 日 志 oplog 








MongoDB 的 Replica Set 架构 是 通过 一 个 日 志 来 存储 写 操 作 的 ， 这 个 日 志 束 叫做 "oplog”。 
oplog.rs 是 一 个 固定 长 度 的 capped collection， 它 存在 于 "local 数据 库 中 ， 用 于 记录 Replica 
Sets 操作 日 志 。 在 默认 情况 下 ,对 于 64 位 的 MongoDB,oplog 是 比较 大 的 ， 可 以 达到 5% 的 磁 
ATEJ oplog 的 大 小 是 可 以 通过 mongod 的 参数 ”一 oplogSize” 来 改变 oplog 的 日 志 大 小 。 








Oplog 内 容 样 例 : 
rs1:PRIMARY> use local 
switched to db local 
rs1:PRIMARY> show collections 
oplog.rs 


system.replset 
rs1:PRIMARY?» db.oplog.rs.find() 


{ "ts" :{ "t" : 1338457763000, "i" : 1 }, "h" : NumberLong(0), "op" : "n", "ns" : "", "o" : ( "msg" : 
"initiating set" }} 

{ "ts" : { "t" : 1338459114000, "i" : 1 }, "h" : NumberLong( 5493127699725549585^), "op" : "i", 
"ns" : "test.c1", "o" : { " id" : Objectid("4fc743e9aea289af709ac6b5"), "age" : 29, "name" : 
"Tony" jj 

rs1:PRIMARY» 





字段 说 明 : 
e ts APERE RIET TEER 
€ op: 操作 类 型 ， 如 下 : 
€ iinsert 
€ d:delete 
€  u:update 
@ ns dH. üuWLiETRTERJ collection name 
€ o: document 的 内 容 





查看 master 的 oplog 元 数据 信息 : 
rs1:PRIMARY> db.printReplicationInfo() 
configured oplog size: — 47.6837158203125MB 
log length start to end: 1351secs (0.38hrs) 


oplog first event time: Thu May 31 2012 17:49:23 GMT«0800 (CST) 
oplog last event time: — Thu May 31 2012 18:11:54 GMT+0800 (CST) 
now: Thu May 31 2012 18:21:58 GMT+0800 (CST) 
rs1:PRIMARY» 
字段 说 明 : 
€ configured oplog size: ”配置 的 oplog 文件 大 小 
log length start to end: oplog 日 志 的 启用 时 间 段 








e 
€  oplogfirst event time: ”第 一 个 事务 日 志 的 产生 时 间 
€ oploglasteventtime: 最 后 一 个 事务 日 志 的 产生 时 间 
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@ now: 现在 的 时 间 


查看 slave 的 同步 状态 : 
rs1:PRIMARY> db.printSlaveReplicationInfo() 
source:  localhost:28011 
syncedTo: Thu May 31 2012 18:11:54 GMT+0800 (CST) 
= 884secs ago (0.25hrs) 


source:  localhost:28012 
syncedTo: Thu May 31 2012 18:11:54 GMT+0800 (CST) 
- 884secs ago (0.25hrs) 





rs1:PRIMARY» 

字段 说 明 : 

€ source: MEHI IP Img HO 

€ syncedTo: 目前 的 同步 情况 ， 延 迟 了 多 和 久 等 信息 





21.3 主 从 配置 信息 


在 local 库 中 不 仅 有 主 从 日 志 oplog 集合 ， 还 有 一 个 集合 用 于 记录 主 从 配置 信息 - 
system.replset 

rs1:PRIMARY» use local 

switched to db local 

rs1:PRIMARY» show collections 

oplog.rs 

system.replset 

rs1:PRIMARY» db.system.replset.find() 


{ id" : "rs1", "version" : 1, "members" :| 


" id" :0, 
"host" : "localhost:28010" 


" jid" 1, 
"host" : "localhost:28011" 


d" 2, 
"host" : "localhost:28012" 


] } 

rs1:PRIMARY> 

从 这 个 集合 中 可 以 看 出 , Replica Sets 的 配置 信息 ,也 可 以 在 任何 一 个 成 员 实 例 上 执行 rs.conf() 
来 查看 配置 信息 
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21.4 管理 维护 Replica Sets 


21.4.1 读 写 分 离 














有 一 些 第 三 方 的 工具 , 提供 了 一 些 可 以 让 数据 库 进 行 读 写 分 离 的 工具 。 我 们 现在 是 否 有 一 个 
疑问 ， 从 库 要 是 能 进行 得 询 就 更 好 了 ， 这 样 可 以 分 担 主 库 的 大 量 的 碍 询 请 求 。 

















1、 先 癌 主 库 中 插入 一 条 测试 数据 


[root@localhost bin]# ./mongo --port 28010 
MongoDB shell version: 1.8.1 
connecting to: 127.0.0.1:28010/test 


rs1:PRIMARY» db.c1.insert([age:30]) 
db.c2rs1:PRIMARY» db.c1.find() 
LU" id" : Objectid("4fc771421137ea4fdb653b4a"), "age" : 30] 





2、 在 从 库 进 行 但 询 等 操作 

[root(? localhost bin]& ./mongo --port 28011 

MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:2801 1/test 

rs1:SECONDARY?» show collections 

Thu May 31 22:27:17 uncaught exception: error: ( "Serr" : "not master and slaveok-false", 
"code" : 13435 } 

rs1:SECONDARY» 


当 碍 询 时 报错 了 ， 说 明 是 个 从 库 且 不 能 执行 查询 的 操作 











3、 让 从 库 可 以 谈 ， 分 担 主 库 的 压力 
rs1:9ECONDARY> db.getMongo().setSlaveOk() 
not master and slaveok=false 
rs1:SECONDARY?» show collections 

c1 


system.indexes 

rs1:SECONDARY» db.ci1.find() 

LU" id" : Objectid("4fc771421137ea4fdb653b4a"), "age" : 30) 
rs1:SECONDARY» 


看 来 我 们 要 是 执行 db.getMongo().setSlaveOk(), RARI £18 A FE T. 





21.4.2 故障 转移 





复制 集 比 传统 的 Master-Slave 有 改进 的 地 方 束 古 他 可 以 进行 故障 的 目 动 转移 ， 如 果 我 们 停 挥 
复制 集中 的 一 个 成 员 ， 那 么 剩余 成 员 会 再 目 动 选举 出 一 个 成 员 ， 做 为 主 库 ， 例 如 : 
我 们 将 28010 这 个 主 库 停 控 ， 然 后 再 看 一 下 复制 集 的 状态 
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1、 杀 掉 28010 端口 的 MongoDB 

[root@localhost bin]# ps aux| grep mongod 

root 6706 1.6 6.9 463304 6168 S| 21:49 
/^pps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/rO --fork --port 28010 

root 6733 0.4 6.7 430528 6044 ? SI 21:50 0:06 


/^pps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/r1 --fork --port 28011 

root 6747 0.4 4.7 431548 4260 ? 9| 21:50 0:06 
/^pps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/r2 --fork --port 28012 

root 7019 0.0 0.7 5064 684 pts/2 S+ 22:16 0:00 grep mongod 
[root@localhost bin]# kill -9 6706 











2、 查 看 复制 集 状态 
[root@localhost bin]# ./mongo --port 28011 
MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:2801 1/test 
rs1:SECONDARY^? rs.status() 


{ 


set" : "rs1", 
"date" : ISODate("2012-05-31T14:17:03Z"), 
"myState" : 2, 
"members" : [ 
{ 
" id" : 0, 
"name" : "localhost:28010", 
"health" : 0, 
"state" : 1, 
"stateStr" : "(not reachable/healthy)", 
"uptime" : O, 
"optime" :{ 
"t" : 1338472279000, 
ied 
h 
"optimeDate" : ISODate("2012-05-31T13:51:19Z"), 
"lastHeartbeat" : ISODate("2012-05-31T14:16:42Z"), 


"errmsg" : "socket exception" 


icio E 

"name" : "localhost:28011", 
"health" : 1, 

"state" : 2, 

"stateStr" : "SECONDARY", 


"optime" :{ 
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"t" : 1338472279000, 

Trib 
p 
"optimeDate" : ISODate("2012-05-31T13:51:19Z"), 
"self" : true 


SA 

"name" : "localhost:28012", 
"health" : 1, 

"state" : 1, 

"stateStr" : "PRIMARY", 


"uptime" : 1528, 
"optime" :{ 
"t" : 1338472279000, 
Aere 
h 
"optimeDate" : ISODate("2012-05-31T13:51:19Z"), 
"lastHeartbeat" : ISODate("2012-05-31T14:17:02Z") 


]， 
"ok" :1 
} 
rs1:SECONDARY> 
可 以 看 到 28010 ix 1-?m OHJ MongoDB 出 现 了 弄 第 ,而 系统 目 动 选举 了 28012 iX ?m L129 E, 
所 以 这 样 的 故障 处 理 机 制 ， 能 将 系统 的 稳定 性 大 大 提高 。 











21.4.3 RDA 


MongoDB Replica Sets 不 仅 提供 高 可 用 性 的 解决 方案 ， 它 也 同时 提供 负载 均衡 的 解决 方案 ， 
增 减 Replica Sets 节 扣 在 实际 应 用 中 非常 普 人 过， 例如 当 应 用 的 读 压 力 其 增 时 ，3 合 节 点 的 环 
境 已 不 能 满足 需求 ， 那 么 束 需 要 增加 一 些 市 点 将 压力 平均 分 配 一 下 ; 当 应 用 的 压力 小 时 ,可 
以 减少 一 些 太 点 来 减少 健 件 资源 的 成 本 ; 总 之 这 是 一 个 长 期 旦 持续 的 工作 。 























21.4.3.1 增加 节点 


官方 给 我 们 提 了 2 个 方案 用 于 增加 节点 ,一 种 是 通过 oplog 来 增加 节点 , 一 种 是 通过 数据 库 
快照 (--fastsync) 和 oplog 来 增加 节点 ， 下 和 面 将 分 别 介 绍 。 
21.4.3.1.1 通过 oplog 增加 市 点 


QD、 配 置 并 启动 新 节点 ， 启 用 28013 这 个 端口 给 新 的 节点 
[root@localhost ~]# mkdir -p /data/data/r3 
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[root(2 localhost ~]# echo "this is rs1 super secret key" > /data/key/r3 
[root(2 localhost ~]# chmod 600 /data/key/r3 
[root(2localhost ~]# /Apps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/r3 --fork --port 


28013 --dbpath /data/data/r3 --logpathz/data/log/r3.log --logappend 
all output going to: /data/log/r3.log 

forked process: 10553 

[root(2 localhost ~]# 





@、 添 加 此 新 节点 到 现 有 的 Replica Sets 
rs1:PRIMARY> rs.add("localhost:28013") 
{"ok":1} 


(3. f Replica Sets 我 们 可 以 清晰 的 看 到 内 部 是 如 何 添 加 28013 这 个 新 节点 的 . 
步骤 一 : 进行 初始 化 
rs1: PRIMARY > rs.status() 


set" : "rs1", 
"date" : ISODate("2012-05-31T12:17:44Z"), 
"myState" : 1, 


"members" :| 


ld 3 

"name" : "localhost:28013", 

"health" : 0, 

"state" : 6, 

"stateStr" : "(not reachable/healthy)", 
"uptime" : O, 

"optime" :( 


"optimeDate" : ISODate("1970-01-01T00:00:007Z"), 
"lastHeartbeat" : ISODate("2012-05-31T12:17:43Z"), 


"errmsg" : "still initializing" 


l, 
"ok": 1 





步骤 二 : 进行 数据 同步 
rs1:PRIMARY> rs.status() 


{ 





set" : "rs1", 
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"date" : ISODate("2012-05-31T12:18:07Z^), 
"myState" : 1, 


"members" :| 


" jid" :3, 

"name" : "localhost:28013", 
"health" : 1, 

"state" :3, 

"stateStr" : "RECOVERING", 
"uptime" : 16, 

"optime" : { 


"optimeDate" : ISODate("1970-01-01T00:00:00Z"), 
"lastHeartbeat" : ISODate("2012-05-31T12:18:05Z"), 
"errmsg" : "initial sync need a member to be primary or secondary 
to do our initial sync" 
j 


l, 
"ok":1 





步骤 三 : 初始 化 同步 完成 
rs1:PRIMARY> rs.status() 
{ 


set" : "rs1", 
"date" : ISODate("2012-05-31T12:18:08Z"), 
"myState" : 1, 


"members" :| 


vde 3 


"name" : "localhost:28013", 
"health" : 1, 

"state" :3, 

"stateStr" : "RECOVERING", 
"uptime" : 17, 


"optime" : { 
"t" : 1338466661000, 
BEI 
h 
"optimeDate" : ISODate("2012-05-31T12:17:41Z^), 
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"lastHeartbeat" : ISODate("2012-05-31T12:18:07Z"), 


"errmsg" : "initial sync done" 





步骤 四 : RAIER AASE SS 
rs1:PRIMARY? rs.status() 
{ 


set" : "rs1", 
"date" : ISODate("2012-05-31T12:18:10Z"), 
"myState" : 1, 


"members" :| 


eic 3, 
"name" : "localhost:28013", 
"health" : 1, 
"state" : 2, 
"stateStr" : "SECONDARY", 
"uptime" : 19, 
"optime" :{ 
"t" : 1338466661000, 
ail 
h 
"optimeDate" : ISODate("2012-05-31T12:17:41Z"), 
"lastHeartbeat" : ISODate("2012-05-31T12:18:09Z") 


l, 
"ok":1 





、 验 证 数据 已 经 同步 过 来 了 

[root@localhost data]tt /Apps/mongo/bin/mongo -port 28013 
MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:28013/test 

rs1:SECONDARY?» rs.slaveOk() 


rs1:SECONDARY?» db.c1.find() 
LU" id" : Objectid("4fc760d2383ede1dce14ef86"), "age" : 10] 
rs1:SECONDARY» 





21.4.3.1.2 通过 数据 库 快照 (--fastsync) 和 oplog 增加 市 点 


通过 oplog 直接 进行 增加 和 点 操作 简单 且 无 需 人 工 干预 过 多 ， 但 oplog 是 capped collection, 
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采用 循环 的 方式 进行 日 总 处理 ， 所 以 采用 oplog 的 方式 进行 增加 下 点 ， 有 可 能 导致 数据 的 不 
一 人 性 ， 因 为 日 忘 中 存储 的 信息 有 可 能 已 经 刷新 过 了 。 不 过 没关系 ,我 们 可 以 通过 数据 库 快照 
(--fastsync) 和 oplog 结合 的 方式 来 增加 节点， 这 种 方式 的 操作 流程 是 ， 先 取 菏 一 个 复制 集成 
员 的 物理 文件 来 做 为 初始 化 数据 ， 然 后 剩余 的 部 分 用 oplog 日 志 来 退 ， 最 余 达到 数据 一 任性 

















(DD、 取 某 一 个 复制 集成 员 的 物理 文件 来 做 为 初始 化 数据 
[root@localhost ~]# scp -r /data/data/r3 /data/data/r4 


[root(2 localhost ~]# echo "this is rs1 super secret key" > /data/key/r4 
[root(2 localhost ~]# chmod 600 /data/key/r4 





D, ERWA, Æ cl 集中 插入 一 条 新 文档 ， 用 于 最 后 验证 此 更 新 也 同步 了 
rs1:PRIMARY> db.c1.find() 

LU" id" : Objectid("4fc760d2383ede1dce14ef86"), "age" : 10] 

rs1:PRIMARY» db.c1.insert([age:20]) 

rs1:PRIMARY» db.c1.find() 

LU" id" : Objectid("4fc760d2383ede1dce14ef86"), "age" : 10] 

LU" id" : Objectid("4fc77481479e007bde6644ef"), "age" : 20] 

rs1:PRIMARY» 





©., BH 28014 这 个 端口 给 新 的 节点 
/^pps/mongo/bin/mongod --replSet rs1 --keyFile /data/key/r4 --fork --port 28014 --dbpath 
/data/data/r4 --logpathz/data/log/r4.log --logappend --fastsync 





QD. WS 28014 节点 
rs1:PRIMARY? rs.add("localhost:28014") 
{ "ok" . 1 } 


@@、 验 证 数据 已 经 同步 过 来 了 

[root(2 localhost data]tt /Apps/mongo/bin/mongo -port 28014 
MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:28014/test 

rs1:SECONDARY?» rs.slaveOk() 


rs1:SECONDARY?» db.c1.find() 

LU" id" : Objectid("4fc760d2383ede1dce14ef86"), "age" : 10] 
LU" id" : Objectid("4fc77481479e007bde6644ef"), "age" : 20] 
rs1:SECONDARY» 





21.4.3.2. 减少 节点 





下 面 将 刚刚 添加 的 两 个 新 节点 28013 和 28014 从 复制 集中 去 除 掉 ， 只 需 执行 rs.remove 指令 
束 可 以 了 ， 具 体 如 下 : 


rs1:PRIMARY> rs.remove("localhost:28014") 
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{ ok :1j 


rs1:PRIMARY> rs.remove("localhost:28013") 
{ "ok" : 1 } 











查看 复制 集 状 态 ， 可 以 看 到 现在 只 有 28010、28011、28012 这 三 个 成 员 ， 原 来 的 28013 和 
28014 都 成 功 去 除了 
rs1:PRIMARY> rs.status() 


ese rS 
"date" : ISODate("2012-05-31T14:08:29Z"), 
"myState" : 1, 
"members" : [ 
{ 
" id" : 0， 
"name" : "localhost:28010", 
"health" : 1, 
"state" : 1, 
"stateStr" : "PRIMARY", 
"optime" : 1 
"t" : 1338473273000, 
EIS T 
h 
"optimeDate" : ISODate("2012-05-31T14:07:53Z"), 
"self" : true 
h 
{ 
"idis T 
"name" : "localhost:28011", 
"health" : 1, 
"state" : 2, 
"stateStr" : "SECONDARY", 
"uptime" : 34, 
"optime" :{ 
"t" : 1338473273000, 
xe 
h 
"optimeDate" : ISODate("2012-05-31T14:07:53Z"), 
"lastHeartbeat" : ISODate("2012-05-31T14:08:29Z") 
h 
{ 
" id" :2, 
"name" : "localhost:28012", 
"health" : 1, 
"state" : 2, 
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"stateStr" : "SECONDARY", 
"uptime" : 34, 
"optime" :{ 
"t" : 1338473273000, 
vc] 
h 


"optimeDate" : ISODate("2012-05-31T14:07:53Z"), 
"lastHeartbeat" : ISODate("2012-05-31T14:08:29Z") 


| 

"OK :1 
j 
rs1:PRIMARY» 





第 二 十 二 章 Sharding 2; H 


这 是 一 种 将 海量 的 数据 水 平 扩 展 的 数据 库 集 群 系统 ， 数 据 分 表 人 存储 在 sharding 的 各 个 市 所 
上 ， 使 用 者 通过 傈 单 的 配置 就 可 以 很 方便 地 构建 一 个 分 布 式 MongoDB 集群 。 











MongoDB 的 数据 分 块 称 为 chunk. 每 个 chunk 都 是 Collection 中 一 段 连续 的 数据 记录 , 通 
第 最 大 尺寸 是 200MB， 超 出 则 生成 新 的 数据 块 。 





要 构建 一 个 MongoDB Sharding Cluster， 需 要 三 种 角色 : 
@ Shard Server 


即 存储 实际 数据 的 分 片 ， 每 个 Shard 可 以 是 一 个 mongod 实例 ， 也 可 以 是 一 组 mongod 实例 
构成 的 Replica Set。 为 了 实现 每 个 Shard 内 部 的 auto-failover, MongoDB 官方 建议 每 个 Shard 
为 一 组 Replica Set. 


€ Config Server 


为 了 将 一 个 特定 的 collection 存储 在 多 个 shard 中 ， 需 要 为 该 collection 指定 一 个 shard key, 
例如 {age: 1} ，shard key 可 以 决定 该 条 记录 属于 哪个 chunks Config Servers 就 是 用 来 存储 : 
所 有 shard 节点 的 配置 信息 、 每 个 chunk 的 shard key 范围 、chunk 在 各 shard 的 分 布 情况 、 
该 集群 中 所 有 DB 和 collection 的 sharding 配置 信息 。 





@ Route Process 


这 是 一 个 前 关 路 由 ， 客 户 疹 由 此 接 入 ， 然 后 询问 Config Servers 需要 到 哪个 Shard 上 查询 或 
保存 记录 ， 再 连接 相应 的 Shard 进行 操作 ， 最 后 将 结果 返回 给 客户 靖 。 客 户 端 只 需要 将 原本 
发 给 mongod 的 查询 或 更 狐 请 求 原封 不 动 地 发 给 Routing Process， 而 不 必 关 心 所 操作 的 记录 
存储 在 哪个 Shard 上 。 




















下 和 面 我 们 在 同一 台 物 理 机 器 上 构建 一 个 人 简单 的 Sharding Cluster: 
染 构 图 如 下 : 


76/91 


北京 麒麟 网 信息 科技 有 限 公 司 DBA EXE wangwenlong 2009@live.cn 


Shard 服 委 器 1 Shard BE &-g£1 


1; mongod | ' mongod 


EPER 





Shard Server 1: 20000 
Shard Server 2: 20001 
Config Server : 30000 
Route Process: 40000 


22.1 月 动 Shard Server 


mkdir -p /data/shard/sO -- 创 建 数 据 目 录 

mkdir -p /data/shard/s1 

mkdir -p /data/shard/log -= 创建 目 志 目录 

/^pps/mongo/bin/mongod --shardsvr --port 20000 --dbpath /data/shard/sO --fork --logpath 
/data/shard/log/sO.log  --directoryperdb -- 3JJ Shard Server 实例 1 
/^pps/mongo/bin/mongod --shardsvr --port 20001 --dbpath /data/shard/s1 --fork --logpath 
/data/shard/log/si.log — --directoryperdb --JH 3JJ Shard Server 实例 2 





22.2 月 动 Config Server 


mkdir -p /data/shard/config -- 创 建 数据 目录 
/^pps/mongo/bin/mongod --configsvr --port 30000 --dbpath /data/shard/config --fork --logpath 
/data/shard/log/config.log --directoryperdb ”-- 局 动 Config Server 实例 





22.3 月 动 Route Process 


/^pps/mongo/bin/mongos  --port 40000  --configdb  localhost:30000  --fork  --logpath 


/data/shard/log/route.log --chunkSize 1 -- 局 动 Route Server 实例 
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mongos 启动 参数 中 ，chunkSize 这 一 项 是 用 来 指定 chunk 的 大 小 的 ， 单 位 是 MB， 默 认 大 小 
为 200MB， 为 了 方便 测试 Sharding 效果 ， 我 们 把 chunkSize 指定 为 1MB. 


22.4 配置 Sharding 


接 下 来 ， 我 们 使 用 MongoDB Shell 登录 到 mongos， 添 加 Shard 节点 

[root@localhost ~]# /Apps/mongo/bin/mongo admin --port 40000 ”-- 此 操作 需要 连接 admin FE 
MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:40000/admin 

> db.runCommand({ addshard:"localhost:20000" ]) JJ] Shard Server 

( "shardAdded" : "shard0000", "ok" : 1] 

> db.runCommand(( addshard:"localhost:20001" }) 

{ "shardAdded" : "shard0001", "ok" :1] 

> db.runcommand(( enablesharding:"test" }) -- 设 置 分 片 存储 的 数据 库 

{"ok":1} 

> db.runCommand({ shardcollection: "test.users", key: ( id:1H) -- 设 置 分 片 的 集合 名 称 ， 且 必 
须 指 定 Shard Key， 系 统 会 目 动 创建 索引 

{ “collectionsharded : "test.users", "ok" :1} 

> 





22.5 验证 Sharding 正常 工作 


我 们 已 经 对 test.users 表 进 行 了 分 卢 的 设置 ， 下 面 我 们 们 插入 一 些 数据 看 一 下 结 末 
> use test 
switched to db test 
> for (vari = 1; i <= 500000; i++) db.users.insert((age:i, name:"wangwenlong", addr:" Beijing", 
country:" China"]) 
» db.users.stats() 
{ 
"sharded" : true, -- 说 明 此 表 已 被 shard 
"ns" : test.users", 
"count" : 500000, 


"Size" : 48000000, 


"avgObjSize" : 96, 
"storageSize" : 66655232, 


"nindexes" : 1, 


"nchunks" : 43, 
"shards" :( 
"shard0000" : { -- 在 此 分 片 实 例 上 约 有 24.5M 数据 
"ns" : "test.users", 
"count" : 254889, 
"size" : 24469344, 


"avgObjSize" : 96, 
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"storageSize" : 33327616, 

"numExtents" : 8, 

"nindexes" : 1, 

"lastExtentSize" : 12079360, 

"paddingFactor" : 1, 

"flags" : 1, 

"totallndexSize" : 11468800, 

"indexSizes" : ( 

" id ":11468800 

h 

"ok" :1 
h 
"shard0001" : { -- 在 此 分 片 实 例 上 约 有 23.5M 数据 

"ns" : "test.users", 
"count" : 245111, 
"Size" : 23530656, 
"avgObjSize" : 96, 
"storageSize" : 33327616, 
"numExtents" : 8, 
"nindexes" : 1, 
"lastExtentSize" : 12079360, 
"paddingFactor" : 1, 
"flags" : 1, 
"totalIndexSize" : 10649600, 
"indexSizes" : ( 

" id ":10649600 
h 
"ok" :1 


[root(2 localhost bin]# Il /data/shard/sO/test -- 此 分 片 实例 上 有 数据 产生 
总 计 262420 

1root root 16777216 06-03 15:21 test.0 

1root root 33554432 06-03 15:21 test.1 

1rootroot 67108864 06-03 15:22 test.2 

1 root root 134217728 06-03 15:24 test.3 

1root root 316777216 06-03 15:21 test.ns 
[root(? localhost bin]# II /data/shard/s1/test -- 此 分 片 实例 上 有 数据 产生 
总 计 262420 
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1root root 16777216 06-03 15:21 test.O 
1 root root 33554432 06-03 15:21 test.1 
1lrootroot 067108864 06-03 15:22 test.2 


1 root root 134217728 06-03 15:23 test.3 
1rootroot 16777216 06-03 15:21 test.ns 
[root(2 localhost bin]& 





看 上 述 结果 ， 表 明 testusers 集合 已 经 被 分 片 处 理 了 ， 但 是 通过 mongos 路 由 ， 我 们 并 感觉 
不 到 是 数据 存放 在 哪个 shard 的 chunk 上 的 ， 这 束 是 MongoDB 用 户 体 验 上 的 一 个 优势 ， 即 
对 用 户 是 透明 的 。 








22.6 管理 维 扩 Sharding 


22.6.1 列 出 所 有 的 Shard Server 


> db.runCommand({ listshards: 1 }) -- 列 出 所 有 的 Shard Server 
"shards" : [ 
{ 
" id" : "shard0000", 
"host" : "localhost:20000" 


" id" : "shard0001", 
"host" : "localhost:20001" 


"ok" :1 





22.6.2 查看 Sharding 信息 


> printShardingStatus() -£6 Sharding fri 
--- Sharding Status --- 
sharding version: { "_id" : 1, "version" : 3] 
shards: 
LU" id" : "shard0000", "host" : "localhost:20000" } 
LU" id" : "shard0001", "host" : "localhost:20001" } 


databases: 


LU" id" : "admin", "partitioned" : false, "primary" : "config" } 


LU" id" : "test", "partitioned" : true, "primary" : "shard0000"} 





test.users chunks: 
80 / 91 


北京 麒麟 网 信息 科技 有 限 公 司 DBA 王 文 龙 wangwenlong. 2009@live.cn 


shard0000 1 
(" id" : ( $minKey : 1 } ) -» { " id" : ( $maxKey : 1] ) on : 


shardO000 { "t" : 1000, "i" : 0j 





22.6.3 判断 是 否 是 Sharding 


> db.runcommand(( isdbgrid:1 }) 
{ isdbgrid : 1, "hostname" : "localhost", "0k" : 1j 


> 





22.6.4 对 现 有 的 表 进 行 Sharding 





刚才 我 们 是 对 表 test.users 进行 分 片 了 , 下面 我 们 将 对 库 中 现 有 的 未 分 片 的 表 testusers_2 进 
行 分 片 处 理 


表 最 初 状态 如 下 ， 可 以 看 出 他 没有 被 分 片 过 : 
> db.users 2.stats() 


{ 
"ns" : "test.users_2", 
"sharded" : false, 
"primary" : "shard0000", 
"ns" : "test.users_2", 
"count" : 500000, 
"size" : 48000016, 
"avgObjSize" : 96.000032, 
"storageSize" : 61875968, 
"numExtents" : 11, 
"nindexes" : 1, 
"lastExtentSize" : 15001856, 


"paddingFactor" : 1, 


"flags" : 1, 
"totallndexSize" : 20807680, 
"indexSizes" :{ 

" id ":20807680 


h 
"ok :1 





对 其 进行 分 片 处 理 : 


> use admin 
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switched to db admin 


> db.runCommand(( shardcollection: "test.users 2", key: (. id:1 }} 





{ “collectionsharded : "test.users 2", "ok" :1] 








FEAD HR IPIREBU ANS. HIEUE SIE CARRI Hr T 
> use test 

switched to db test 

» db.users 2.stats() 


{ 


"sharded" : true, 


"ns" : "test.users_2", 
"count" : 505462, 


"shards" : { 
"shard0000" : { 


ns" : "test.users_2", 


"Ok" :1 
li 
"shard0001" : { 


ns" : "test.users_2", 


"ok": 1 





22.6.5 新 增 Shard Server 


11 BE TIR I] ERATA R, BE POKAL BC u Shard Server 


局 动 一 个 新 Shard Server 进程 

[root@localhost ~]# mkdir /data/shard/s2 

[root(2localhost ~]# /Apps/mongo/bin/mongod --shardsvr --port 20002 --dbpath /data/shard/s2 
--fork --logpath /data/shard/log/s2.log  --directoryperdb 


all output going to: /data/shard/log/s2.log 





forked process: 6772 


配置 新 Shard Server 
[root(2 localhost ~]# /Apps/mongo/bin/mongo admin --port 40000 


MongoDB shell version: 1.8.1 
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connecting to: 127.0.0.1:40000/admin 

> db.runCcommand(( addshard:"localhost:20002" }) 
{ "shardAdded" : "shard0002", "ok" :1} 

» printShardingStatus() 


--- Sharding Status --- 
sharding version: ( " id" : 1, "version" : 3] 


shards: 
LU" id" : "shard0000", "host" : "localhost:20000" } 
LU" id" : "shard0001", "host" : "localhost:20001" } 
(" id" : "shard0002", "host" : "localhost:20002")  --3139 Shard Server 
databases: 
LU" id" : "admin", "partitioned" : false, "primary" : "config" } 
LU" id" : "test", "partitioned" : true, "primary" : "shardO000" } 
test.users chunks: 
shard0002 2 
shard0000 21 
shard0001 21 
too many chunksn to print, use verbose if you want to force print 
test.users 2 chunks: 
shard0001 46 
shard0002 1 
shard0000 45 
too many chunksn to print, use verbose if you want to force print 





答 看 分 片 表 状 态 ， 以 验证 新 Shard Server 
> USe test 

switched to db test 

» db.users 2.stats() 


{ 


"sharded" : true, 


ns" : "test.users_2", 


"shard0002" : { -- 新 的 Shard Server 已 有 数据 
"ns" : 'test.users 2", 
"count" : 21848, 
"Size" : 2097408, 
"avgObjSize" : 96, 
"storageSize" : 2793472, 
"numExtents" : 5, 
"nindexes" : 1, 
"lastExtentSize" : 2097152, 


"paddingFactor" : 1, 


"flags" : 1, 
"totallndexSize" : 1277952, 
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"indexSizes" : ( 
" id ": 1277952 


h 
"ok" :1 


h 
"ok" :1 





我 们 可 以 发 现 ， 当 我 们 新 增 Shard Server 后 数据 目 动 分 布 到 了 新 Shard 上 ， 这 是 由 MongoDB 
内 部 目 己 实现 的 。 





22.6.6 移 除 Shard Server 


有 些 时 候 有 于 便 件 资源 有 限 , 所 以 我 们 不 得 不 进行 一 些 回 收工 作 , 下 面 我 们 束 要 将 刚刚 局 用 
的 Shard Server 回收 ， 系 统 首 先 会 将 在 这 个 即将 被 移 除 的 Shard Server 上 的 数据 先 平 均 分 配 
到 其 它 的 Shard Server 上 ， 然 后 最 终 在 将 这 个 Shard Server 踊 下 线 ， 我 们 需要 不 停 的 调用 
db.runcommand(("removeshard" : "localhost:20002")); 来 观察 这 个 移 除 操作 进行 到 哪里 了 : 


> use admin 











switched to db admin 
> db.runCommand({"removeshard" : "localhost:20002")); 
{ 

"msg" : "draining started successfully", 

"state" : "started", 

"shard" : "shard0002", 

"ok": 1 
} 
> db.runcommand(( removeshard" : "localhost:20002")); 
{ 


msg" : "draining ongoing", 

"state" : "ongoing", 

"remaining" : 1 
"chunks" : NumberLong(44), 
"dbs" : NumberLong(0O) 

h 

"Ok" :1 


> db.runCcommand(( removeshard" : "localhost:20002")); 


{ 


msg" : "draining ongoing", 


"state" : "ongoing", 





"remaining" : ( 


84/91 


北京 麒麟 网 信息 科技 有 限 公 司 DBA 王 文 龙 wangwenlong 2009@live.cn 


"chunks" : NumberLong(1), 
"dbs" : NumberLong(0) 
h 
"ok" :1 
j 
> db.runcommand(("removeshard" : "localhost:20002"]); 


{ 


msg" : "removeshard completed successfully", 


"state" : "completed", 
"shard" : "shard0002", 
"ok" :1 
j 
> db.runcommand(("removeshard" : "localhost:20002"]); 
{ 
"assertion" : "can't find shard for: localhost:20002", 
"assertionCode" : 13129, 
"errmsg" : "db assertion failure", 
"ok" :0 





最 终 移 除 后 ， 当 我 们 再 次 调用 db.runcommand(("removeshard" : "localhost:20002")); 的 时 候 系 统 
会 报错 ， 已 便 通 知 我 们 不 存在 20002 这 个 端口 的 Shard Server 了 ， 因 为 它 已 经 被 移 除 掉 了 。 


接 下 来 我 们 看 一 下 表 中 的 数据 分 布 : 
> Use test 
switched to db test 
» db.users 2.stats() 
{ 

"sharded" : true, 

"ns" : "test.users 2", 
"count" : 500000, 
"size" : 48000000, 
"avgObjSize" : 96, 
"storageSize" : 95203584, 
"nindexes" : 1, 
"nchunks" : 92, 
"shards" :1 


"shard0000" : { 


ns" : "test.users 2", 
"count" : 248749, 

"size" : 23879904, 
"avgObjSize" : 96, 
"storageSize" : 61875968, 


"numExtents" : 11, 





"nindexes" : 1, 
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"lastExtentSize" : 15001856, 
"paddingFactor" : 1, 
"flags" : 1, 
"totallndexSize" : 13033472, 
"indexSizes" : ( 
" id ": 13033472 
h 
pel eee 
h 
"shard0001" :( 


"ns" : 'test.users 2", 


"count" : 251251, 
"size" : 24120096, 
"avgObjSize" : 96, 
"storageSize" : 33327616, 
"numExtents" : 8, 
"nindexes" : 1, 
"lastExtentSize" : 12079360, 
"paddingFactor" : 1, 
"flags" : 1, 
"totallndexSize" : 10469376, 
"indexSizes" : ( 

" id ":10469376 
h 
"ok" :1 





可 以 看 出 数据 又 被 平均 分 配 到 了 另外 2 S Shard Server 上 上 了， 对 业务 没什么 特别 大 的 影响 。 


第 二 十 三 章 Replica Sets + Sharding 














MongoDB Auto-Sharding 解决 了 海量 存储 和 动态 扩容 的 问题 ， 但 离 实际 生产 环境 所 需 的 局 可 
靠 、 高 可 用 还 有 些 距离 ， 所 以 有 了 ”Replica Sets + Sharding" 的 解决 方案 : 
€  Shard: 
使 用 Replica Sets， 确 保 每 个 数据 节点 都 具有 备份 、 目 动容 错 转 移 、 目 动 恢 复 能 力 。 
€ Config: 
使 用 3 个 配置 服务 器 ， 人 确保 元 数据 完整 性 
€ Route: 


(EH 3 个 路 由 进程 ， 实 现 负 载 平 衡 ， 提 高 客户 中 接 入 性 能 














以 下 我 们 配置 一 个 Replica Sets + Sharding 的 环境 ， 架 构图 如 下 : 
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mongos 2 





开放 的 站 口 如 下 : 


主机 JIP | 用 & 端 


Server A 192.168.3.231 mongod shard1 1:27017 
mongod shard2  1:27018 
mongod config1:20000 
mongs1:30000 


Server B 192.168.3.232 mongod shard1 2:27017 
mongod shard2 2:27018 
mongod config2:20000 
mongs2:30000 

Server C 192.168.3.233 mongod shard1 3:27017 
mongod shard2 3:27018 
mongod config3:20000 
mongs3:30000 





23.1 创建 数据 目录 


在 Server A 上 : 
[root@localhost bin]# mkdir -p /data/shard1 1 
[root@localhost bin]& mkdir -p /data/shard2 1 
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[root@localhost bin]# mkdir -p /data/config 


在 Server B E: 
[root(2 localhost bin]# mkdir -p /data/shard1. 2 


[root(2 localhost bin]& mkdir -p /data/shard2 2 
[root(2 localhost bin]# mkdir -p /data/config 





在 Server C. E: 
[root(2 localhost bin]# mkdir -p /data/shard1 3 


[root(2 localhost bin]# mkdir -p /data/shard2 3 
[root(2 localhost bin]# mkdir -p /data/config 





23.2 配置 Replica Sets 


23.2.1 配置 shard1 所 用 到 的 Replica Sets 


在 Server A LE: 
[root@localhost bin]# /Apps/mongo/bin/mongod --shardsvr --replSet shard1 --port 27017 


--dbpath /data/shard1 1 --logpath /data/shard1 Vshard1 1.log --logappend --fork 


[root(2 localhost bin]& all output going to: /data/shard1 1/shard1 1.log 
forked process: 18923 





在 Server B E: 

[root@localhost bin]# /Apps/mongo/bin/mongod --shardsvr --replSet shard1 --port 27017 
--dbpath /data/shard1 2 --logpath /data/shard1 2/shard1. 2.log --logappend --fork 

forked process: 18859 

[root(2 localhost bin]& all output going to: /data/shard1 2/shard1 2.log 


[root(2 localhost bin]& 





在 Server C E: 

[root@localhost bin]# /Apps/mongo/bin/mongod --shardsvr --replSet shard1 --port 27017 
--dbpath /data/shard1 3 --logpath /data/shard1  3/shard1. 3.log --logappend --fork 

all output going to: /data/shard1 3/shard1 3.log 

forked process: 18768 

[root(2 localhost bin]& 





用 mongo 连接 其 中 一 台 机 器 的 27017 端口 的 mongod， 初 始 化 Replica Sets *shard1", HÍT: 
[root(? localhost bin]& ./mongo --port 27017 
MongoDB shell version: 1.8.1 


connecting to: 127.0.0.1:27017/test 
> config = ( id: 'shard1', members: [ 
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{_id: O, host: '192.168.3.231:270177], 
L id: 1, host: '192.168.3.232:270177], 
{_id: 2, host: 192.168.3.233:27017 


> rs.initiate(config) 
"info" : "Config now saved locally. Should come online in about a minute.", 
"ok" :1 





23.2.2 配置 shard2 所 用 到 的 Replica Sets 


在 Server A 上 : 

[root@localhost bin]# /Apps/mongo/bin/mongod --shardsvr --replSet shard2 --port 27018 
--dbpath /data/shard2 1 --logpath /data/shard2_ 1/shard2. 1.log --logappend --fork 

all output going to: /data/shard2 1/shard2 1.log 

[root(? localhost bin]# forked process: 18993 





[root(2 localhost bin]& 


在 Server B E: 

[root@localhost bin]# /Apps/mongo/bin/mongod --shardsvr --replSet shard2 --port 27018 
--dbpath /data/shard2 2 --logpath /data/shard2 2/shard2  2.log --logappend --fork 

all output going to: /data/shard2 2/shard2 2.log 

forked process: 18923 

[root(2 localhost bin]& 





在 Server C E: 

[root@localhost bin]# /Apps/mongo/bin/mongod --shardsvr --replSet shard2 --port 27018 
--dbpath /data/shard2 3 --logpath /data/shard2 3/shard2. 3.log --logappend --fork 

[root(2 localhost bin]# all output going to: /data/shard2 3'shard2 3.log 

forked process: 18824 





[root(2 localhost bin]& 


用 mongo 连接 其 中 一 台 机 器 的 27018 "i; OKJ mongod， 初 始 化 Replica Sets “shard2”， 执 行 : 
[root@localhost bin]& ./mongo --port 27018 
MongoDB shell version: 1.8.1 


connecting to: 127.0.0.1:27018/test 
> config = ( id: 'shard2', members: [ 
L id: 0, host: '192.168.3.231:27018/], 
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{_id: 1, host: '192.168.3.232:270187], 
Lid: 2, host: '192.168.3.233:27018]] 


» rs.initiate(config) 


{ 


"info" : "Config now saved locally. Should come online in about a minute.", 
"ok":1 





23.3 配置 3 S Config Server 


在 Server A, B, C 上 执行 : 
/Apps/mongo/bin/mongod  --configsvr --dbpath  /data/config  --port 20000  --logpath 





/data/config/config.log --logappend --fork 


23.4 配置 3 S Route Process 


在 Server A, B. C 上 执行 : 

/^pps/mongo/bin/mongos --configdb 
192.168.3.231:20000,192.168.3.232:20000,192.168.3.233:20000 --port 30000 --chunkSize 1 
--logpath /data/mongos.log --logappend --fork 





23.5 W Æ Shard Cluster 


连接 到 其 中 一 台 机 器 的 端口 30000 的 mongos 进程 ， 并 切换 到 admin 数据 库 做 以 下 配置 

[root(2 localhost bin]# ./mongo --port 30000 

MongoDB shell version: 1.8.1 

connecting to: 127.0.0.1:30000/test 

» use admin 

switched to db admin 

»db.runcommand((addshard:"shard1/192.168.3.231:27017,192.168.3.232:27017,192.168.3.233: 

27017"); 

("shardAdded" : "shard1", "ok" :1) 

»db.runcommand((addshard:"shard2/192.168.3.231:27018,192.168.3.232:27018,192.168.3.233: 
27018"); 

{ "shardAdded" : "shard2", "ok" : 1) 


2 





激活 数据 库 及 集合 的 分 片 


db.runCommand({enablesharding: test" }) 





db.runCommand(( shardcollection: "test.users", key: (. id:1 )]) 
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23.6 验证 Sharding 正常 工作 


XE BSEC fL HIS HI 30000 的 mongos 进程 ， 并 切换 到 test 数据 库 ， 以 便 添 加 训 试 数 
据 

Use test 

for(var i=1;i<=200000;i++) db.users.insert([id:i,addr. 1:"Beijing",addr. 2:" Shanghai"]); 
db.users.stats() 


{ 


"sharded" : true, 

"ns" : "test.users", 
"count" : 200000, 
"size" : 25600384, 
"avgObjSize" : 128, 
"storageSize" : 44509696, 
"nindexes" : 2, 
"nchunks" : 15, 
"shards" : { 


"shard0000" : { 


}, 
"shard0001" : { 


}, 
"ok":1 








可 以 看 到 Sharding 搭 建成 功 了 , 跟 我 们 期 望 的 结果 一 致 , PERA Replica Sets 与 Sharding 
结合 的 架构 也 学 习 完 毕 了 。 
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